Tutorial Python Pandas: Semua yang Perlu Diketahui Pemula tentang Python Pandas

Diterbitkan: 2020-03-26

Pada artikel ini, kita akan melihat salah satu library populer Python yang penting untuk profesional data, Pandas. Anda akan belajar tentang dasar-dasarnya serta operasinya.

Mari kita mulai.

Daftar isi

Apa itu Panda?

Python Panda populer karena berbagai alasan. Aplikasi utamanya adalah manipulasi data, analisisnya, serta pembersihannya. Anda dapat menggunakannya untuk berbagai tipe data dan kumpulan data, termasuk data tidak berlabel, dan data deret waktu terurut. Sederhananya, kita dapat mengatakan bahwa Panda adalah rumah data Anda. Anda dapat melakukan banyak operasi pada data Anda dengan alat ini.

Anda dapat mengonversi format data file, menggabungkan dua kumpulan data, membuat perhitungan, memvisualisasikannya dengan mengambil bantuan dari Matplotlib, dll. Dengan begitu banyak fungsi, ini adalah pilihan populer di kalangan profesional data. Itu sebabnya mempelajarinya sangat penting. Dan tanpa memahami cara kerjanya, Anda tidak dapat menggunakannya, jadi dalam tutorial Python Pandas ini, kami akan fokus pada hal yang sama.

Baca: Pustaka Visualisasi Data Python

Peran Panda dalam Ilmu Data

Pustaka Pandas adalah bagian integral dari gudang data profesional mana pun. Ini didasarkan pada NumPy, yang merupakan pustaka Python populer lainnya. Banyak struktur NumPy hadir di Pandas, jadi jika Anda terbiasa dengan yang pertama, Anda tidak akan kesulitan untuk mengenal yang terakhir.

Sebagian besar waktu, para ahli menggunakan Pandas untuk memberi makan data di SciPy untuk analisis statistik. Mereka juga menggunakan data ini dengan Matplotlib atau Scikit-learn untuk fungsinya (masing-masing fungsi plot dan pembelajaran mesin).

Pelajari lebih lanjut tentang perpustakaan pembelajaran mesin Python.

Prasyarat

Sebelum kita mulai membahas cara kerja Python Pandas dan operasinya, pertama-tama kita harus menjelaskan siapa yang dapat menggunakannya dengan benar dan siapa yang tidak. Anda harus terlebih dahulu terbiasa dengan kode dasar Python dan NumPy.

Yang pertama, yaitu, dasar-dasar Python, sangat penting untuk alasan yang jelas. Anda tidak akan mengerti banyak tanpa mengetahui cara kerja kode Python. Dan bahkan jika Anda melakukannya, Anda tidak akan dapat mencoba kodenya karena Anda masih perlu mempelajari kode dasarnya terlebih dahulu.

Yang kedua, NumPy, penting untuk dipelajari karena Pandas didasarkan pada itu. Memiliki pemahaman tentang NumPy akan sangat membantu Anda dalam mengenal Panda.

Anda dapat mempelajari tentang Python melalui blog kami tentang ilmu data dan Python . Kami memiliki banyak panduan dan artikel bermanfaat yang dapat membuat Anda terbiasa dengan dasar-dasarnya. Ini gratis, dan jika Anda memiliki keraguan, Anda dapat menuliskannya di bagian komentar.

Jika Anda sudah familiar dengan kedua topik yang kami sebutkan, mari kita lihat Panda secara mendalam:

Memasang Panda

Untuk menggunakan Pandas, Anda harus menginstalnya. Yang terbaik adalah, instalasi dan impor Panda sangat mudah. Cukup buka baris perintah (jika Anda menggunakan Mac, Anda harus membuka terminal) dan instal Pandas dengan menggunakan kode-kode ini:

Untuk pengguna PC: pip install pandas

Untuk pengguna Mac: conda install pandas

Di Pandas, Anda akan berurusan dengan seri dan kerangka data. Sementara seri mengacu pada kolom, bingkai data mengacu pada tabel multi-dimensi yang memiliki beberapa seri. Sekarang mari kita lihat operasi yang dapat Anda lakukan di Pandas.

Operasi di Panda

Sekarang kita telah membahas pentingnya dan definisinya, sekarang kita harus mempertimbangkan tindakan yang dapat Anda lakukan dalam tutorial Python Pandas ini. Pandas memberi Anda banyak fungsi, dan kami telah membahasnya di bawah ini:

Melihat data

Anda akan ingin mencetak beberapa baris kumpulan data Anda di awal untuk menyimpannya sebagai referensi visual. Dan Anda dapat melakukannya dengan fungsi .head().

file1.head()

Fungsi ini memberi Anda lima baris pertama dari bingkai data. Jika Anda ingin mendapatkan lebih banyak baris daripada lima baris pertama, Anda cukup memasukkan nomor yang diperlukan dalam fungsi tersebut. Misalkan Anda menginginkan 15 baris pertama dari bingkai data, Anda akan menulis kode berikut:

file1.head(15)

Anda juga memiliki opsi untuk melihat lima baris terakhir dari bingkai data. Anda dapat melakukannya dengan menggunakan fungsi .tail(). Dan seperti fungsi .head(), fungsi .tail() juga dapat menerima angka dan memberi Anda jumlah baris yang diperlukan.

file1.tail(20)

Kode ini akan memberi Anda 20 baris terakhir dari bingkai data Anda.

Mendapatkan informasi

Salah satu fungsi pertama yang digunakan ilmuwan data dengan Pandas adalah .info(). Itu karena ini menampilkan informasi tentang bingkai data dan memberi Anda pemahaman yang lebih dalam tentang apa yang sedang Anda kerjakan. Inilah cara Anda menggunakannya di Pandas:

file1.info()

Ini memberi Anda banyak informasi berguna tentang kumpulan data, seperti jumlah nilai non-null, jumlah baris, jenis data yang ada dalam kolom, dll.

Mengetahui tipe data nilai bingkai data Anda sangat penting dalam banyak kasus. Misalkan Anda perlu melakukan operasi aritmatika pada data tetapi memiliki string. Saat Anda menjalankan operasi matematika, Anda akan melihat kesalahan muncul karena Anda tidak dapat melakukan operasi seperti itu pada string. Jika di satu sisi, Anda akan menggunakan fungsi .info() sebelum melakukan operasi apa pun, Anda sudah tahu bahwa Anda memiliki string.

Sementara fungsi .info() menunjukkan informasi umum tentang kumpulan data Anda, atribut .shape memberi Anda tupel bingkai data Anda. Anda dapat mengetahui berapa banyak baris dan kolom yang dimiliki dataset Anda dengan bantuan atribut .shape. Dan Anda dapat menggunakannya dengan cara berikut:

file1.shape

Atribut ini tidak memiliki tanda kurung karena hanya memberi Anda tupel baris dan kolom. Anda akan cukup sering menggunakan atribut .shape saat membersihkan data Anda.

Pelajari juga: Gaji Pengembang Python di India

Rangkaian

Sekarang mari kita bahas atribut penggabungan dalam tutorial Python Pandas ini. Concatenation mengacu pada menggabungkan dua atau lebih hal bersama-sama. Jadi, dengan atribut ini, Anda dapat menggabungkan dua kumpulan data tanpa mengubah nilai atau titik datanya dengan cara apa pun. Mereka bergabung bersama apa adanya. Anda harus menggunakan fungsi .concat() untuk tujuan ini. Berikut caranya:

hasil = pd.concat([file1,file2])

Ini akan menggabungkan bingkai data file1 dan file2 dan menampilkannya sebagai bingkai data tunggal.

df1 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3], “IND_GDP”:[50,45,45,67]}, indeks=[2001, 2002,2003,2004])

df2 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3],”IND_GDP”:[50,45,45,67]}, indeks=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

cetak (concat)

Output dari kode di atas:

Int_Rate IND_GDP HPI

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Anda pasti memperhatikan bagaimana fungsi .concat() telah menggabungkan dua kerangka data dan mengubahnya menjadi satu.

Mengubah Indeks

Anda juga dapat mengubah nilai indeks dalam bingkai data Anda. Untuk tujuan itu, Anda harus menggunakan fungsi .set_index() . Dalam tanda kurung fungsi ini, Anda harus memasukkan detail untuk mengubah file index. Perhatikan contoh berikut untuk lebih memahaminya.

impor panda sebagai pd

df= pd.DataFrame({“Hari”:[1,2,3,4], “Pengunjung”:[200, 100,230,300], “Bounce_Rate”:[20,45,60,10]})

df.set_index(“Hari”, inplace= Benar)

cetak (df)

Output dari kode di atas:

Bounce_Rate Pengunjung

Hari

1 20 200

2 45 100

3 60 230

4 10 300

Anda dapat melihat bahwa kode kami mengubah nilai indeks data sesuai dengan hari.

Mengubah Header Kolom

Anda juga dapat mengubah tajuk kolom di Python Pandas. Yang harus Anda lakukan adalah menggunakan fungsi .rename(). Anda dapat memasukkan nama kolom yang awalnya ada di dalam tanda kurung dan nama kolom yang ingin Anda tampilkan di kode keluaran.

Misalkan Anda memiliki tabel dengan tajuk kolomnya sebagai 'Waktu', dan Anda ingin mengubahnya menjadi 'Jam'. Anda dapat mengubah nama kolom ini dengan kode berikut:

df = df.rename(columns={“Waktu” : “Jam”})

Kode ini akan mengubah nama tajuk kolom dari 'Waktu' menjadi 'Jam'. Ini adalah fungsi yang sangat baik untuk praktik yang efisien. Mari kita lihat bagaimana Anda dapat mengonversi format data Anda.

Penguncian Data

Dengan munging data, Anda memiliki opsi untuk mengonversi format data tertentu. Anda dapat mengonversi file .csv menjadi file .html atau sebaliknya. Berikut adalah contoh bagaimana Anda dapat melakukannya:

impor panda sebagai pd

country= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)

country.to_html('file1.html')

Setelah Anda menjalankan kode ini, itu akan membuat file HTML untuk Anda, yang dapat Anda jalankan di browser Anda. Data munging adalah fungsi yang sangat baik, dan Anda akan menemukan penggunaannya dalam banyak situasi.

Kesimpulan

Dan sekarang, kita telah mencapai akhir dari tutorial Python Pandas ini. Kami harap Anda menemukannya bermanfaat dan informatif. Python Pandas adalah topik yang luas, dan dengan banyak fungsi yang dimilikinya, perlu beberapa waktu bagi seseorang untuk terbiasa dengannya sepenuhnya.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang Python, berbagai perpustakaannya, termasuk Pandas, dan aplikasinya dalam ilmu data, lihat Diploma PG IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, tatap muka dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apakah saya perlu tahu Python untuk menggunakan Pandas?

Sebelum Anda memulai dengan Pandas, Anda perlu memahami bahwa ini adalah paket yang dibuat untuk Python. Jadi, Anda pasti harus memiliki pegangan yang kuat pada dasar-dasar serta sintaks pemrograman Python untuk mulai menggunakan Pandas dengan mudah. Setiap kali bekerja dengan data tabular dengan Python, Pandas dianggap sebagai pilihan terbaik.

Namun, Anda harus memahami sintaks yang digunakan dalam Python sebelum memulai dengan Pandas. Tidak perlu menghabiskan banyak waktu untuk itu, tetapi Anda hanya perlu meluangkan waktu yang cukup untuk memahami sintaks dasar sehingga Anda dapat mulai dengan tugas-tugas yang melibatkan Panda.

Berapa lama waktu yang dibutuhkan untuk belajar Panda dengan Python?

Pandas adalah pustaka Python yang paling banyak digunakan untuk menangani data tabular. Anda dapat menggunakan Pandas untuk semua tugas yang mungkin Anda gunakan untuk Excel. Jika Anda sudah mengetahui pemrograman Python dan sintaksnya, maka Anda dapat dengan mudah membiasakan diri dengan fungsi Pandas dalam waktu dua minggu. Saat Anda mulai dengan Pandas, Anda harus mulai dengan proyek manipulasi data dasar untuk memahaminya.

Saat Anda melangkah lebih jauh, Anda akan melihat bahwa Pandas adalah alat ilmu data yang sangat berguna yang dapat menjadi faktor kunci yang mendorong keputusan bisnis di beberapa industri.

Haruskah saya lebih memilih belajar Numpy atau Pandas terlebih dahulu?

Lebih disukai untuk mempelajari Numpy sebelum Panda karena Numpy adalah modul paling mendasar dalam Python untuk komputasi ilmiah. Anda juga akan menerima dukungan array multidimensi yang sangat dioptimalkan yang dianggap sebagai struktur data paling dasar dari setiap algoritma Machine Learning.

Setelah Anda selesai mempelajari Numpy, maka Anda harus mulai dengan Pandas karena Pandas dianggap sebagai perpanjangan dari Numpy. Ini karena kode yang mendasari Pandas menggunakan perpustakaan Numpy secara ekstensif.