5 Fungsi Panda Paling Penting untuk Ilmuwan Data [2022]

Diterbitkan: 2021-01-02

Pandas jelas merupakan salah satu perpustakaan yang paling banyak digunakan dan disukai dalam hal Ilmu Data dan Analisis Data dengan Python. Apa yang membuatnya istimewa? Dalam tutorial ini, kita akan membahas 5 fungsi yang menjadikan Panda sebagai alat yang sangat berguna dalam kit alat Data Scientist.

Di akhir tutorial ini, Anda akan memiliki pengetahuan tentang fungsi-fungsi di bawah di Pandas dan cara menggunakannya untuk aplikasi Anda:

nilai_jumlah
berkelompok
loc dan iloc
unik dan nunique
Potong dan qcut

Daftar isi

Fungsi Panda Teratas Untuk Ilmuwan Data

1. nilai_jumlah()

Fungsi value_counts() Pandas digunakan untuk menunjukkan jumlah semua elemen unik dalam kolom kerangka data.

Kiat Pro: Untuk mendemonstrasikannya, saya akan menggunakan Dataset Titanic.

Sekarang, untuk menemukan jumlah kelas dalam fitur Embarked, kita dapat memanggil fungsi value_counts:

melatih[ 'Memulai' ].value_counts()

#Keluaran:
S 644
C 168
Q 77

Juga, jika angka ini tidak masuk akal, Anda dapat melihat persentasenya sebagai gantinya:

train[ 'Embarked' ].value_counts(normalize= True )

#Keluaran:
S 0.724409
C 0.188976
Q 0,086614

Selain itu, value_counts tidak mempertimbangkan NaN atau nilai yang hilang secara default yang sangat penting untuk diperiksa. Untuk melakukan itu, Anda dapat mengatur parameter dropna sebagai false.

melatih[ 'Embarked' ].value_counts(dropna= False )

#Keluaran:
S 644
C 168
Q 77
NaN2 _

2. kelompok_oleh()

Dengan Pandas group_by, kita dapat membagi dan mengelompokkan kerangka data kita berdasarkan kolom tertentu untuk dapat melihat pola dan detail dalam data. Group_by melibatkan 3 langkah utama: membelah, menerapkan dan menggabungkan.

train.groupby( 'Seks' ).mean()

Keluaran:

Seperti yang Anda lihat, kami mengelompokkan kerangka data berdasarkan fitur 'seks' dan dikumpulkan menggunakan cara.

Anda juga dapat memplotnya menggunakan visualisasi bawaan Pandas:

df.groupby( 'Seks' ).sum().plot(kind= 'bar' )

Kami juga dapat mengelompokkan dengan menggunakan beberapa fitur untuk pemisahan hierarkis.

df.groupby([ 'Seks' , 'Bertahan' ] )[ 'Bertahan' ].count()

Harus Dibaca: Pertanyaan Wawancara Panda

3. loc dan iloc

Pengindeksan di Pandas adalah salah satu operasi paling dasar dan cara terbaik untuk melakukannya adalah menggunakan loc atau iloc. "Loc" adalah singkatan dari lokasi dan "i" adalah singkatan dari lokasi yang diindeks. Dengan kata lain, ketika Anda ingin mengindeks kerangka data menggunakan nama atau label kolom/baris, Anda akan menggunakan loc. Dan ketika Anda ingin mengindeks kolom atau baris menggunakan posisi, Anda akan menggunakan fungsi iloc. Mari kita periksa loc dulu.

train.loc[ 2 , 'seks' ]

Operasi di atas memberi kita elemen indeks baris 2 dan kolom 'seks'. Demikian pula, jika Anda membutuhkan semua nilai kolom seks, Anda akan melakukan:

train.loc[:, 'seks' ]

Anda juga dapat memfilter beberapa kolom seperti:

train.loc[:, 'seks' , 'Memulai' ]

Anda juga dapat memfilter menggunakan kondisi boolean di dalam loc seperti:

train.loc[train.age >= 25 ]

Untuk hanya melihat baris tertentu, Anda dapat mengiris kerangka data menggunakan loc:

train.loc[ 100 : 200 ]

Selain itu, Anda dapat mengiris kerangka data pada sumbu kolom sebagai:

train.loc[:, 'seks' : 'tarif' ]

Operasi di atas akan mengiris kerangka data dari kolom 'seks' menjadi 'tarif' untuk semua baris.

Sekarang, mari kita beralih ke iloc. iloc hanya mengindeks menggunakan nomor indeks atau posisi. Anda dapat mengiris kerangka data seperti:

train.iloc[ 100 : 200 , 2 : 9 ]

Operasi di atas akan memotong baris dari 100 hingga 199 dan kolom 2 hingga 8. Demikian pula, jika Anda ingin membagi data secara horizontal, Anda dapat melakukan:

train.iloc[: 300 , :]

4. unik() dan unik()

Panda unik digunakan untuk mendapatkan semua nilai unik dari fitur apa pun. Ini sebagian besar digunakan untuk mendapatkan kategori dalam fitur kategoris dalam data. Unique menunjukkan semua nilai unik termasuk NaN. Ini memperlakukannya sebagai nilai unik yang berbeda. Mari lihat:

melatih[ 'seks' ].unik()

#Keluaran:
[ 'perempuan' , 'laki-laki' ]

Seperti yang kita lihat, ini memberi kita nilai unik dalam fitur 'seks'.

Demikian pula, Anda juga dapat memeriksa jumlah nilai unik karena mungkin ada banyak nilai unik di beberapa fitur.

melatih[ 'seks' ].nunique()
#Keluaran:
2
Namun, Anda harus ingat bahwa nunique() tidak menganggap NaN sebagai nilai unik. Jika ada NaN dalam data Anda, maka Anda harus meneruskan parameter dropna sebagai False untuk memastikan Pandas memberi Anda hitungan termasuk NaN juga.
melatih[ 'seks' ].nunique(dropna= Salah )

#Keluaran:
3
5. potong() dan qcut()
Pemotongan panda digunakan untuk membuang nilai dalam rentang untuk membedakan fitur. Mari selami. Binning berarti mengubah fitur numerik atau kontinu menjadi kumpulan nilai diskrit, berdasarkan rentang nilai kontinu. Ini sangat berguna saat Anda ingin melihat tren berdasarkan rentang titik data.
Mari kita pahami ini dengan sebuah contoh kecil.
Misalkan, kita memiliki nilai untuk 7 anak mulai dari 0-100. Sekarang, kita dapat menetapkan nilai setiap anak ke "tempat sampah" tertentu.
df = pd.Dataframe(data= {
'Name' : [ 'Ck' , 'Ron' , 'Mat' , 'Josh' , 'Tim' , 'SypherPK' , 'Dew' , 'Vin' ],
'Tanda' :[ 37 , 91 , 66 , 42 , 99 , 81 , 45, 71 ]
})

df[ 'marks_bin' ] = pd.cut(df[ 'Marks' ], bins=[ 0 , 50 , 70 , 100 ], labels=[ 1 , 2 , 3 ])
Kemudian kita bisa menambahkan output sebagai fitur baru, dan fitur Marks bisa dihilangkan. Kerangka data baru terlihat seperti:

#Keluaran:
Nama Tanda mark_bin
0 Ck 37 1
1 Ron 91 3
2 Mat 66 2
3 Josh 42 1
4 Tim 99 3
5 SypherPK 81 3
6 Embun 45 1
7 Vin 71 3
Jadi, ketika saya mengatakan bins = [ 0 , 50 , 70 , 100 ] , itu berarti ada 3 rentang:
0 hingga 50 untuk bin 1,
51 hingga 70 untuk bin 2, dan
71 hingga 100 milik bin 3.
Jadi, sekarang fitur kami tidak berisi tanda tetapi rentang atau bin tempat tanda untuk siswa itu berada.
Mirip dengan cut(), Pandas juga menawarkan fungsi saudaranya yang disebut qcut() . Pandas qcut mengambil jumlah kuantil, dan membagi titik data ke setiap nampan berdasarkan distribusi data. Jadi, kita bisa mengubah fungsi cut di atas menjadi qcut:

df[ 'tanda_bin' ] = pd.qcut(df[ 'Tanda' ], q= 3 , label=[ 1 , 2 , 3 ])
Dalam operasi di atas, kami memberi tahu Panda untuk memotong fitur menjadi 3 bagian yang sama dan memberi mereka label. Outputnya datang sebagai:
Nama Tanda mark_bin
0 Ck 37 1
1 Ron 91 3
2 Mat 66 2
3 Josh 42 1
4 Tim 99 3
5 SypherPK 81 3
6 Embun 45 1
7 Vin 71 2
Perhatikan bagaimana nilai terakhir berubah dari 3 menjadi 2.
Baca Juga: Pandas Dataframe Astype
Sebelum kamu pergi
Kami melihat beberapa fungsi Panda yang paling sering digunakan. Tapi ini bukan satu-satunya yang penting dan kami mendorong Anda untuk mempelajari lebih banyak fungsi Panda yang paling banyak digunakan. Ini adalah pendekatan yang baik dan efisien karena Anda mungkin tidak menggunakan semua fungsi yang dimiliki Pandas, tetapi hanya beberapa di antaranya.

Pelajari kursus ilmu data dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.
Mengapa perpustakaan Pandas begitu populer?
Library ini memang cukup populer di kalangan data scientist dan data analyst. Alasan untuk ini adalah dukungannya yang besar terhadap sejumlah besar format file dan kumpulan fitur yang kaya untuk memanipulasi data yang diekstraksi. Itu dapat dengan mudah diintegrasikan dengan perpustakaan dan paket lain seperti NumPy.

Pustaka yang kuat ini menyediakan berbagai fungsi yang berguna untuk memanipulasi kumpulan data besar dengan cara yang fleksibel. Setelah Anda menguasainya, Anda dapat dengan mudah mencapai tugas-tugas hebat dengan beberapa baris kode.
Apa fungsi penggabungan dan mengapa itu digunakan?
Fungsi merge adalah fungsi khusus dari data frame Pandas yang digunakan untuk menggabungkan beberapa baris atau kolom dari 2 data frame. Ini adalah operasi join dengan memori tinggi dan menyerupai database relasional. Anda dapat menggunakan pada = Nama Kolom untuk menggabungkan bingkai data pada kolom umum.

Anda dapat memperbarui left_on = Nama Kolom atau right_on = Nama Kolom untuk menyelaraskan tabel menggunakan kolom dari bingkai data kiri atau kanan sebagai kunci.

Selain perpustakaan Pandas, apa perpustakaan Python lainnya untuk ilmu data?
Selain perpustakaan Pandas, ada banyak perpustakaan Python yang dianggap sebagai beberapa perpustakaan terbaik untuk ilmu data. Ini termasuk PySpark, TensorFlow, Matplotlib, Scikit Learn, SciPy dan banyak lagi. Masing-masing dari mereka banyak digunakan karena fitur dan fungsinya yang unik dan menakjubkan.

Setiap perpustakaan memiliki makna tersendiri seperti SciKit Learn lebih sering digunakan ketika Anda harus berurusan dengan data statistik. Selain menganalisis data, Anda juga dapat membuat dasbor dan laporan visual menggunakan fungsi yang disediakan oleh perpustakaan luar biasa ini.