Menguasai Panda: Fungsi Panda Penting Untuk Proyek Anda Selanjutnya
Diterbitkan: 2020-11-30Pustaka Pandas telah menjadi favorit sepanjang masa untuk semua Ilmuwan Data atau analis karena sifatnya yang mudah digunakan, berbagai fungsi, dan interpretasi hasil yang lebih baik. Setiap individu yang memulai perjalanan Ilmu Data mereka disarankan untuk memiliki kendali yang baik atas panda, datang dengan saluran pipa untuk mengurangi upaya manual pembersihan dan pra-pemrosesan data.
Pandas dibangun di atas Numpy yang memungkinkan eksekusi perintah lebih cepat dan menyelesaikan pekerjaan dalam waktu yang lebih singkat. Pada artikel ini, kami akan membagikan beberapa fungsi panda yang diremehkan yang dapat memperkaya kualitas kode proyek Anda.
Sebelum melanjutkan, berikut adalah legenda singkatnya:
- Semua perintah yang disebutkan mengasumsikan bahwa bingkai data dinamai sebagai 'df' yang merupakan objek dari pd.DataFrame()
- Pustaka Pandas telah diimpor sebagai alias sebagai 'pd'.
Daftar isi
Aksesor Tali
Data string atau teks merupakan bagian utama dari kumpulan data. Baik itu informasi yang terkait dengan penulis, judul, publikasi buku, atau tweet yang dibuat untuk tagar tertentu, kami memiliki banyak data teks dan data ini berguna jika dibersihkan dengan benar dan dimasukkan ke pengklasifikasi seperti Naive Bayes, dll. Berikut beberapa trik yang bisa Anda terapkan:
- Untuk mengakses data tipe string, gunakan accessor 'str'. Misalnya, df['column_name'].str
- Ini memungkinkan untuk melakukan semua operasi string pada kolom yang dipilih.
- Beberapa operasi umum termasuk,
- df['column_name'].str.len(): panjang setiap string
- .str.split(): Memisahkan pada karakter tertentu
- .str.contains(): Mengembalikan T/F tentang apakah kata tertentu ada dalam string
- .str.count(): Mengembalikan jumlah baris yang memenuhi ekspresi reguler yang diteruskan.
- .str.findall(): Mengembalikan hasil yang cocok dengan ekspresi yang diteruskan.
- .str.replace(): Sama seperti findall tapi di sini terjadi penggantian item yang cocok
- Semua operasi string seperti .title, .isalpha, .isalnum, .isdecimal dll didukung.
Baca Juga: Pandas Dataframe Astype
Pengakses Tanggal Waktu
Tanggal dan waktu biasanya ada dalam kumpulan data dalam bentuk stempel waktu, waktu mulai, waktu berakhir, atau waktu lain yang terkait dengan peristiwa itu. Sangat berguna untuk mengurai data ini dengan benar karena memberikan tren sepanjang garis waktu yang dapat digunakan untuk memprediksi peristiwa di masa depan atau kami menyebutnya sebagai analisis deret waktu. Mari kita lihat beberapa perintah yang berguna:
- Untuk mengakses data DateTime, konversikan tipe data saat ini (nilai tanggal diuraikan sebagai string atau objek) ke DateTime menggunakan fungsi pd.to_datetime().
- Sekarang, dengan menggunakan pengakses '.dt', kita dapat mengakses informasi DateTime yang diperlukan seperti:
- df['column_name'].dt.day: Mengembalikan hari dari tanggal.
- .dt.time: Waktu
- .dt.year: Tahun dari tanggal
- .dt.month: Bulan dari tanggal
- .dt.weekday: Apakah itu hari Minggu, Senin… dalam bentuk numerik di mana 0 mewakili hari Senin. Jika Anda ingin nama hari, gunakan .dt.day_name
- .dt.is_month_start: Mengembalikan T/F tergantung pada apakah tanggalnya adalah yang pertama di bulan itu.
- .dt.is_month_end Fungsi yang sama seperti month_start tetapi di sini tanggal terakhir bulan itu diverifikasi.
- .dt.quater: Mengembalikan di kuartal mana tanggal terletak
- .dt.is_quater_start: Mengembalikan T/F apakah tanggalnya adalah hari pertama kuartal
- .dt.is_quater_end: apakah ini hari terakhir kuartal
- .dt.normalize: Ketika komponen waktu tidak menambahkan kontribusi yang berharga untuk analisis, dapat diabaikan. Perintah ini membulatkan waktu hingga tengah malam yaitu, 00:00:00.
Panda Merencanakan
Visualisasi plot adalah salah satu komponen kunci Analisis Data dan memainkan peran utama saat melakukan rekayasa fitur. Misalnya, outlier dalam dataset dapat dideteksi menggunakan plot kotak yang mewakili rentang median dan interkuartil, meninggalkan outlier di ujung ekstrim.

Plotting dilakukan sebagian besar melalui perpustakaan lain seperti seaborn, plotly, bokeh, matplotlib, tetapi ketika Anda ingin langsung memvisualisasikan data tanpa secara eksplisit mendefinisikan perpustakaan? Panda punya solusinya. Menggunakan fungsi pd.plot() , Anda dapat langsung memplot grafik yang dipanggil secara internal menggunakan matplotlib. Berbagai pilihan yang tersedia untuk ini:
- df.plot() atau df['column_name'].plot() (tergantung pada jenis grafik)
- df.plot() memiliki parameter 'kind' yang mendefinisikan grafik. Secara default, ini adalah plot 'garis' tetapi opsi lain yang tersedia adalah 'bar', 'barh', 'box', 'hist', 'kde' dll.
- Itu memanggil backend matplotlib yang berarti kita dapat mengakses argumennya melalui pengakses 'kapak'.
- Fungsi .plot() juga dapat mengambil argumen seperti 'title', 'xticks', 'xlim', 'xlabel', 'fontsize', 'colormap' yang menghilangkan kebutuhan untuk mendefinisikan library eksternal hingga batas tertentu.
Fungsi Lain-lain
- pd.get_dummies(): Saat melakukan preprocessing data, terkadang kita menjumpai data kategorikal yang perlu diubah ke dalam bentuk numerik untuk diumpankan ke model. Ketika kategori ini cukup rendah, penyandian satu-panas lebih disukai, tetapi melakukan ini secara manual membutuhkan waktu. Fungsi boneka ini tidak hanya mengubah nilai tetapi, jika drop_first disetel ke True, menjatuhkan kolom sebelumnya yang berisi semua kategori.
- df.query(): Ini adalah fungsi yang memungkinkan Anda untuk menerapkan topeng kondisional di atas bingkai data. Perbedaan mendasar antara this dan masking normal adalah bahwa fungsi ini secara langsung mengembalikan nilai alih-alih mask boolean, mengurangi upaya pembuatan mask dan menerapkannya ke bingkai data.
- df.select_dtypes(): Terkadang kita perlu melakukan beberapa tugas tertentu pada satu tipe tipe data. Misalnya, saat membaca data dari file eksternal, beberapa tipe data didefinisikan sebagai objek. Saat membersihkan data, kumpulan data harus memiliki semua tipe data yang benar, dan melakukannya secara manual dengan df.astype('data-type') akan membosankan ketika jumlah tipe data tersebut besar. Fungsi ini memilih tipe data yang ditentukan dan dapat digabungkan dengan fungsi .apply(). Contoh kode akan terlihat seperti ini:
df.select_dtypes(objek).apply(astype(str))
Harus Dibaca: Pertanyaan Wawancara Panda
Kesimpulan
Penugasan ini disebut sebagai chaining, dan sangat umum saat melakukan tugas ilmu data untuk mengurangi upaya mendefinisikan variabel untuk setiap langkah yang akan dilakukan.
Jika Anda penasaran untuk belajar tentang Panda, lihat Diploma IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1-on -1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.
