Lembar Cheat Pandas: Perintah Teratas yang Harus Anda Ketahui [2022]

Diterbitkan: 2021-01-06

Analisis data telah menjadi genre studi baru, dan semuanya berkat Python. Jika Anda seorang analis data antusias yang bekerja di Python hampir sepenuhnya menggunakan perpustakaan Pandas, maka artikel ini cocok untuk Anda. Cheatsheet Panda ini akan membahas semua metode penting yang berguna saat menganalisis data. Anda mungkin pernah mengalami situasi di mana sulit untuk mengingat sintaks khusus untuk melakukan sesuatu di Pandas. Perintah lembar contekan Panda ini akan membantu Anda dengan mudah mengingat dan merujuk operasi Panda yang paling umum. Jika Anda seorang pemula dalam python dan ilmu data, kursus ilmu data upGrad pasti dapat membantu Anda menyelam lebih dalam ke dunia data dan analitik.

Daftar isi

Menggunakan Lembar Curang Panda

Sebelum menggunakan lembar contekan Pandas ini , Anda harus mempelajari Tutorial Panda secara menyeluruh dan kemudian merujuk ke lembar contekan ini untuk diingat dan dibersihkan. Lembar contekan Panda akan membantu Anda dengan cepat mencari metode yang telah Anda pelajari, dan itu bisa berguna bahkan jika Anda akan mengikuti ujian atau wawancara. Kami telah mengumpulkan dan mengelompokkan semua perintah yang sering digunakan di Panda oleh seorang analis data agar mudah dideteksi. Dalam lembar contekan Pandas ini , kita akan menggunakan singkatan berikut untuk mewakili objek yang berbeda.

  • df: Untuk merepresentasikan objek Pandas DataFrame apa pun
  • ser: Untuk mewakili objek Seri Pandas apa pun

Anda harus menggunakan pustaka relevan berikut ini untuk menerapkan metode yang disebutkan di bawah dalam artikel ini.

  • impor panda sebagai pd
  • impor numpy sebagai np

Harus Dibaca: Pertanyaan Wawancara Panda

1. Impor data dari file yang berbeda

  • Untuk membaca semua data dari file CSV: pd.read_csv(file_name)
  • Untuk membaca semua data dari file teks yang dibatasi (seperti TSV): pd.read_table(file_name)
  • Untuk membaca dari lembar Excel: pd.read_excel(file_name)
  • Untuk membaca data dari database SQL: pd.read_sql(query, connectionObject)
  • Mengambil data dari string atau URL berformat JSON: pd.read_json(jsonString)
  • Untuk mengambil konten clipboard Anda: pd.read_clipboard()

2. Ekspor DataFrames dalam format file yang berbeda

  • Untuk menulis DataFrame ke file CSV: df.to_csv(file_name)
  • Untuk menulis DataFrame ke file Excel: df.to_excel(file_name)
  • Untuk menulis DataFrame ke tabel SQL: df.to_sql(tableName, connectionObject)
  • Untuk menulis DataFrame ke file dalam format JSON: df.to_json(file_name)

3. Periksa bagian tertentu dari DataFrame atau Seri Anda

  • Untuk mengambil semua informasi yang terkait dengan indeks, tipe data, dan memori: df.info()
  • Untuk mengekstrak baris 'n' awal DataFrame Anda: df.head(n)
  • Untuk mengekstrak baris 'n' akhir dari DataFrame Anda: df.tail(n)
  • Untuk mengekstrak jumlah baris dan kolom yang tersedia di DataFrame Anda: df.shape
  • Untuk meringkas statistik untuk kolom numerik: df.describe()
  • Untuk melihat nilai unik beserta jumlahnya: ser.value_counts(dropna=False)

4. Memilih subset tertentu dari data Anda

  • Ekstrak baris pertama: df.iloc[0,:]
  • Untuk mengekstrak elemen pertama dari kolom pertama DataFrame Anda: df.iloc[0,0]
  • Untuk mengembalikan kolom yang memiliki label 'col' sebagai Seri: df[col]
  • Untuk mengembalikan kolom yang memiliki DataFrame baru: df[[col1,col2]]
  • Untuk memilih data berdasarkan posisi: ser.iloc[0]
  • Untuk memilih data menurut indeks: ser.loc['index_one']

5. Perintah Pembersihan Data

  • Untuk mengganti nama kolom secara massal: df.rename(columns = lambda x: x + 1)
  • Untuk mengganti nama kolom secara selektif: df.rename(columns = {'oldName': 'newName'})
  • Untuk mengganti nama indeks secara massal: df.rename(index = lambda x: x + 1)
  • Untuk mengganti nama kolom secara berurutan: df.columns = ['x', 'y', 'z']
  • Untuk memeriksa apakah ada nilai null, kembalikan array boolean yang sesuai: pd.isnull()
  • Kebalikan dari pd.isnull(): pd.notnull()
  • Menghapus semua baris yang berisi nilai nol: df.dropna()
  • Jatuhkan semua kolom yang berisi nilai nol: df.dropna(axis=1)
  • Untuk mengganti setiap nilai nol dengan 'n': df.fillna(n)
  • Untuk mengubah semua tipe data seri menjadi float: ser.astype(float)
  • Untuk mengganti semua angka 1 dengan 'satu' dan 3 dengan 'tiga': ser.replace([1,2], ['satu','dua'])

Baca Juga: Pandas Dataframe Astype

6. Kelompokkan, Urutkan, dan Filter Data

  • Untuk mengembalikan objek groupby untuk nilai kolom: df.groupby(colm)
  • Untuk mengembalikan objek groupby untuk beberapa nilai kolom: df.groupby([colm1, colm2])
  • Untuk mengurutkan nilai dalam urutan menaik (berdasarkan kolom): df.sort_values(colm1)
  • Untuk mengurutkan nilai dalam urutan menurun (menurut kolom): df.sort_values(colm2, ascending=False)
  • Ekstrak baris yang nilai kolomnya lebih besar dari 0,6: df[df[colm] > 0,6]

7. Lainnya

  • Tambahkan baris DataFrame pertama ke akhir DataFrame kedua: df1.append(df2)
  • Tambahkan kolom DataFrame pertama ke akhir DataFrame kedua: pd.concat([df1,df2],axis=1)
  • Untuk mengembalikan rata-rata semua kolom: df.mean()
  • Untuk mengembalikan jumlah nilai bukan nol: df.count()

Kesimpulan

Lembar contekan Panda ini hanya akan berguna untuk penarikan cepat. Itu selalu merupakan pendekatan yang baik untuk mempraktekkan perintah sebelum langsung melompat ke lembar contekan Pandas .

Jika Anda penasaran untuk belajar tentang Panda, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1- on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa saja fitur yang menonjol dari perpustakaan Pandas?

Berikut ini adalah fitur yang menjadikan Pandas salah satu pustaka Python paling populer: Pandas memberi kita berbagai bingkai data yang tidak hanya memungkinkan representasi data yang efisien tetapi juga memungkinkan kita untuk memanipulasinya. Ini menyediakan fitur penyelarasan dan pengindeksan yang efisien yang menyediakan cara cerdas untuk memberi label dan mengatur data. Beberapa fitur Pandas membuat kode bersih dan meningkatkan keterbacaannya, sehingga membuatnya lebih efisien. Itu juga dapat membaca berbagai format file. JSON, CSV, HDF5, dan Excel adalah beberapa format file yang didukung oleh Pandas. Penggabungan beberapa kumpulan data telah menjadi tantangan nyata bagi banyak programmer. Panda juga mengatasi ini dan menggabungkan beberapa kumpulan data dengan sangat efisien. Pustaka Pandas juga menyediakan akses ke pustaka Python penting lainnya seperti Matplotlib dan NumPy yang menjadikannya pustaka yang sangat efisien.

Apa perpustakaan dan alat lain yang melengkapi perpustakaan Pandas?

Pandas tidak hanya berfungsi sebagai pustaka pusat untuk membuat bingkai data, tetapi juga berfungsi dengan pustaka dan alat Python lainnya agar lebih efisien. Pandas dibangun di atas paket NumPy Python yang menunjukkan bahwa sebagian besar struktur perpustakaan Pandas direplikasi dari paket NumPy. Analisis statistik pada data di perpustakaan Pandas dioperasikan oleh SciPy, memplot fungsi di Matplotlib, dan algoritma pembelajaran mesin di Scikit-learn. Jupyter Notebook adalah lingkungan interaktif berbasis web yang berfungsi sebagai IDE dan menawarkan lingkungan yang baik untuk Panda.

Nyatakan operasi dasar dari kerangka data

Memilih indeks atau kolom sebelum memulai operasi apa pun seperti penambahan atau penghapusan adalah penting. Setelah Anda mempelajari cara mengakses nilai dan memilih kolom dari Bingkai Data, Anda dapat belajar menambahkan indeks, baris, atau kolom dalam Bingkai Data Pandas. Jika indeks pada data frame tidak sesuai dengan yang diinginkan, Anda dapat meresetnya. Untuk mengatur ulang indeks, Anda dapat menggunakan fungsi "reset_index()".