Cheatsheet Pandas: comenzile de top pe care ar trebui să le cunoașteți [2022]
Publicat: 2021-01-06Analiza datelor a devenit un nou gen de studiu și totul datorită lui Python. Dacă sunteți un analist de date entuziast care lucrează pe Python, utilizați aproape în mod absolut biblioteca Pandas, atunci acest articol este pentru dvs. Această fișă de înșelăciune Pandas va trece prin toate metodele esențiale care sunt utile în timpul analizei datelor. Este posibil să fi întâlnit situații în care este greu să vă amintiți sintaxa specifică pentru a face ceva în Pandas. Aceste comenzi pentru foile de cheat Pandas vă vor ajuta să vă amintiți cu ușurință și să faceți referire la cele mai comune operațiuni Pandas. Dacă sunteți începător în python și știința datelor, cursurile upGrad de știință a datelor vă pot ajuta cu siguranță să vă scufundați mai adânc în lumea datelor și a analizei.
Cuprins
Folosind Cheatsheet Pandas
Înainte de a utiliza această fișă de cheat Pandas , ar trebui să învățați temeinic Pandas Tutorial și apoi să consultați această fișă de cheat pentru reamintire și ștergere. Cheat sheet Pandas vă va ajuta să căutați rapid metodele pe care le-ați învățat deja și vă poate fi utilă chiar dacă mergeți la un examen sau la un interviu. Am colectat și grupat toate comenzile utilizate frecvent în Pandas de către un analist de date pentru o detectare ușoară. În această fișă de cheat Pandas , vom folosi următoarea scurtătură pentru a reprezenta diferite obiecte.
- df: Pentru a reprezenta orice obiect Pandas DataFrame
- ser: Pentru a reprezenta orice obiect din seria Pandas
Trebuie să utilizați următoarele biblioteci relevante pentru implementarea metodelor menționate mai jos în acest articol.
- importa panda ca pd
- import numpy ca np
Trebuie citit: Întrebări la interviu Pandas
1. Importați date din diferite fișiere
- Pentru a citi toate datele dintr-un fișier CSV: pd.read_csv(file_name)
- Pentru a citi toate datele dintr-un fișier text delimitat (cum ar fi TSV): pd.read_table(file_name)
- Pentru a citi dintr-o foaie Excel: pd.read_excel(file_name)
- Pentru a citi date dintr-o bază de date SQL: pd.read_sql(query, connectionObject)
- Preluarea datelor dintr-un șir formatat JSON sau dintr-un URL: pd.read_json(jsonString)
- Pentru a prelua conținutul clipboard-ului dvs.: pd.read_clipboard()
2. Exportați DataFrames în diferite formate de fișiere
- Pentru a scrie un DataFrame într-un fișier CSV: df.to_csv(file_name)
- Pentru a scrie un DataFrame într-un fișier Excel: df.to_excel(file_name)
- Pentru a scrie un DataFrame într-un tabel SQL: df.to_sql(tableName, connectionObject)
- Pentru a scrie un DataFrame într-un fișier în format JSON: df.to_json(file_name)
3. Inspectați o anumită secțiune din DataFrame sau Series
- Pentru a prelua toate informațiile legate de index, tip de date și memorie: df.info()
- Pentru a extrage primele „n” rânduri ale DataFrame-ului dvs.: df.head(n)
- Pentru a extrage sfârșitul „n” rânduri ale DataFrame-ului dvs.: df.tail(n)
- Pentru a extrage numărul de rânduri și coloane disponibile în DataFrame: df.shape
- Pentru a rezuma statisticile pentru coloanele numerice: df.describe()
- Pentru a vedea valorile unice împreună cu numărul lor: ser.value_counts(dropna=False)
4. Selectarea unui anumit subset de date
- Extrage primul rând: df.iloc[0,:]
- Pentru a extrage primul element din prima coloană a DataFrame-ului: df.iloc[0,0]
- Pentru a returna coloanele cu eticheta „col” ca Series: df[col]
- Pentru a returna coloane care au un nou DataFrame: df[[col1,col2]]
- Pentru a selecta datele după poziție: ser.iloc[0]
- Pentru a selecta datele după index: ser.loc['index_one']
5. Comenzi de curățare a datelor
- Pentru a redenumi coloanele în mase: df.rename(columns = lambda x: x + 1)
- Pentru a redenumi selectiv coloanele: df.rename(columns = {'oldName': 'newName'})
- Pentru a redenumi indexul în mase: df.rename(index = lambda x: x + 1)
- Pentru a redenumi coloanele în succesiune: df.columns = ['x', 'y', 'z']
- Pentru a verifica dacă există valori nule, returnează un tablou boolean corespunzător: pd.isnull()
- Reversul lui pd.isnull(): pd.notnull()
- Elimina toate rândurile care conțin valori nule: df.dropna()
- Elimina toate coloanele care conțin valori nule: df.dropna(axis=1)
- Pentru a înlocui fiecare valoare nulă cu „n”: df.fillna(n)
- Pentru a converti toate tipurile de date ale seriei în float: ser.astype(float)
- Pentru a înlocui toate numărul 1 cu „unul” și 3 cu „trei”: ser.replace([1,2], [„unu”, „două”])
Citește și: Pandas Dataframe Astype

6. Groupby, Sort, and Filter Data
- Pentru a returna un obiect groupby pentru valorile coloanei: df.groupby(colm)
- Pentru a returna obiectul groupby pentru mai multe valori de coloană: df.groupby([colm1, colm2])
- Pentru a sorta valorile în ordine crescătoare (după coloană): df.sort_values(colm1)
- Pentru a sorta valorile în ordine descrescătoare (după coloană): df.sort_values(colm2, ascending=False)
- Extrageți rândurile în care valoarea coloanei este mai mare de 0,6: df[df[colm] > 0,6]
7. Altele
- Adăugați rândurile primului DataFrame la sfârșitul celui de-al doilea DataFrame: df1.append(df2)
- Adăugați coloanele primului DataFrame la sfârșitul celui de-al doilea DataFrame: pd.concat([df1,df2],axis=1)
- Pentru a returna media tuturor coloanelor: df.mean()
- Pentru a returna numărul de valori non-nule: df.count()
Concluzie
Aceste foi de trucuri Pandas vor fi utile doar pentru rechemarea rapidă. Este întotdeauna o abordare bună să exersați comenzile înainte de a sări direct în foaia de trucuri Pandas .
Dacă sunteți curios să aflați despre Pandas, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1- on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.
Care sunt caracteristicile importante ale bibliotecilor Pandas?
Următoarele sunt caracteristicile care fac din Pandas una dintre cele mai populare biblioteci Python: Pandas ne oferă diverse cadre de date care nu numai că permit reprezentarea eficientă a datelor, dar ne permit și să le manipulăm. Oferă funcții eficiente de aliniere și indexare care oferă modalități inteligente de etichetare și organizare a datelor. Unele caracteristici ale Pandas fac codul curat și îi sporesc lizibilitatea, făcându-l astfel mai eficient. De asemenea, poate citi mai multe formate de fișiere. JSON, CSV, HDF5 și Excel sunt unele dintre formatele de fișiere acceptate de Pandas. Fuzionarea mai multor seturi de date a fost o adevărată provocare pentru mulți programatori. Pandas depășesc acest lucru și îmbină mai multe seturi de date foarte eficient. Biblioteca Pandas oferă, de asemenea, acces la alte biblioteci importante Python, cum ar fi Matplotlib și NumPy, ceea ce o face o bibliotecă extrem de eficientă.
Care sunt celelalte biblioteci și instrumente care completează biblioteca Pandas?
Pandas nu numai că funcționează ca o bibliotecă centrală pentru crearea cadrelor de date, dar funcționează și cu alte biblioteci și instrumente Python pentru a fi mai eficient. Pandas este construit pe pachetul NumPy Python, ceea ce indică faptul că cea mai mare parte a structurii bibliotecii Pandas este replicată din pachetul NumPy. Analiza statistică a datelor din biblioteca Pandas este operată de SciPy, funcții de trasare pe Matplotlib și algoritmi de învățare automată în Scikit-learn. Jupyter Notebook este un mediu interactiv bazat pe web care funcționează ca IDE și oferă un mediu bun pentru Pandas.
Prezentați operațiunile de bază ale cadrului de date
Selectarea unui index sau a unei coloane înainte de a începe orice operațiune, cum ar fi adăugarea sau ștergerea, este importantă. Odată ce învățați cum să accesați valori și să selectați coloane dintr-un cadru de date, puteți învăța să adăugați index, rând sau coloană într-un cadru de date Pandas. Dacă indexul din cadrul de date nu iese așa cum doriți, îl puteți reseta. Pentru resetarea indexului, puteți utiliza funcția „reset_index()”.