Tutorial Python Pandas: Tot ce trebuie să știe începătorii despre Python Pandas

Publicat: 2020-03-26

În acest articol, vom arunca o privire la una dintre bibliotecile populare ale Python esențiale pentru profesioniștii în domeniul datelor, Pandas. Veți putea afla despre elementele de bază, precum și despre operațiunile sale.

Să începem.

Cuprins

Ce este Pandas?

Python Pandas este popular din mai multe motive. Aplicația sa principală este manipularea datelor, analiza și curățarea acesteia. Îl puteți folosi pentru diferite tipuri de date și seturi de date, inclusiv date neetichetate și date din serii temporale ordonate. Pentru a spune simplu, putem spune că Pandas este casa datelor tale. Puteți efectua numeroase operații asupra datelor dvs. cu acest instrument.

Puteți converti formatul de date al unui fișier, puteți îmbina două seturi de date, puteți face calcule, îl puteți vizualiza luând ajutor de la Matplotlib etc. Cu atât de multe funcționalități, este o alegere populară printre profesioniștii în domeniul datelor. De aceea este esențial să înveți despre el. Și fără să înțelegeți cum funcționează, nu îl puteți folosi, așa că în acest tutorial Python Pandas, ne vom concentra pe același lucru.

Citiți: Biblioteci de vizualizare a datelor Python

Rolul panda în știința datelor

Biblioteca Pandas este o parte integrantă din arsenalul oricărui profesionist de date. Se bazează pe NumPy, care este o altă bibliotecă populară Python. O mare parte din structura lui NumPy este prezentă în Pandas, așa că dacă ești familiarizat cu primul, nu ai avea nicio dificultate să te familiarizezi cu cel din urmă.

De cele mai multe ori, experții folosesc Pandas pentru a furniza date în SciPy pentru analize statistice. De asemenea, folosesc aceste date cu Matplotlib sau Scikit-learn pentru funcțiile lor (funcții de plotare și, respectiv, învățarea automată).

Aflați mai multe despre bibliotecile de învățare automată ale lui Python.

Cerințe preliminare

Înainte de a începe să discutăm despre funcționarea Python Pandas și operațiunile sale, ar trebui mai întâi să clarificăm cine îl poate folosi corect și cine nu. Mai întâi ar trebui să vă familiarizați cu codul de bază al lui Python și cu NumPy.

Primul, adică fundamentele lui Python, este vital din motive evidente. Nu ai înțelege prea multe fără să știi cum funcționează codul Python. Și chiar dacă o faci, nu ai putea încerca codul, deoarece mai întâi ar trebui să înveți codul de bază.

Al doilea, NumPy, este esențial de învățat, deoarece Pandas se bazează pe el. Înțelegerea NumPy vă va ajuta considerabil să vă familiarizați cu Pandas.

Puteți afla despre Python prin blogurile noastre despre știința datelor și Python . Avem multe ghiduri și articole utile care vă pot face familiarizați cu elementele de bază. Este gratuit, iar dacă aveți îndoieli, le puteți scrie în secțiunea de comentarii.

Dacă sunteți familiarizat cu ambele subiecte pe care le-am menționat, să aruncăm o privire la Pandas în detaliu:

Instalarea Pandas

Pentru a utiliza Pandas, va trebui să-l instalați. Cel mai bun lucru este că instalarea și importul Pandas este foarte ușor. Doar deschideți linia de comandă (dacă utilizați un Mac, va trebui să deschideți terminalul) și instalați Pandas folosind aceste coduri:

Pentru utilizatorii de PC: pip install panda

Pentru utilizatorii de Mac: conda instalează panda

În Pandas, veți avea de-a face cu serii și cadre de date. În timp ce o serie se referă la o coloană, un cadru de date se referă la un tabel multidimensional care are mai multe serii. Să aruncăm o privire acum la operațiunile pe care le puteți efectua în Pandas.

Operațiuni în Pandas

Acum că am discutat despre importanța și definiția sa, ar trebui să luăm în considerare acțiunile pe care le puteți efectua în acest tutorial Python Pandas. Pandas vă oferă o mulțime de funcții și le-am discutat mai jos:

Vizualizarea datelor

Veți dori să tipăriți câteva dintre rândurile setului de date la început pentru a le păstra ca referință vizuală. Și puteți face acest lucru cu funcția .head().

file1.head()

Această funcție vă oferă primele cinci rânduri ale cadrului de date. Dacă doriți să obțineți mai multe rânduri decât primele cinci, puteți doar să treceți numărul necesar în funcție. Să presupunem că doriți primele 15 rânduri ale cadrului de date, veți scrie următorul cod:

file1.head(15)

Aveți și opțiunea de a vizualiza ultimele cinci rânduri ale cadrului de date. Puteți face acest lucru folosind funcția .tail(). Și la fel ca și funcția .head(), și funcția .tail() poate accepta un număr și vă poate oferi cantitatea necesară de rânduri.

file1.tail(20)

Acest cod vă va oferi ultimele 20 de rânduri ale cadrului de date.

Obținerea de informații

Una dintre primele funcții pe care oamenii de știință le folosesc cu Pandas este .info(). Asta pentru că afișează informații despre cadrul de date și vă oferă o înțelegere mai profundă a cu ce lucrați. Iată cum îl folosiți în Pandas:

fișier1.info()

Vă oferă o mulțime de informații utile despre setul de date, cum ar fi cantitatea de valori non-nule, numărul de rânduri, tipul de date prezente într-o coloană etc.

Cunoașterea tipului de date al valorilor cadrului de date este esențială în multe cazuri. Să presupunem că trebuie să efectuați operații aritmetice asupra datelor, dar acestea au șiruri de caractere. Când ați rula operațiile matematice, veți vedea o eroare pop-up pentru că nu puteți efectua astfel de operațiuni pe șiruri. Dacă, pe de altă parte, ați folosi funcția .info() înainte de a face orice operație, ați ști deja că aveți șiruri de caractere.

În timp ce funcția .info() vă arată informații generale despre setul de date, atributul .shape vă oferă un tuplu din cadrul de date. Puteți afla câte rânduri și coloane are setul dvs. de date cu ajutorul atributului .shape. Și îl puteți folosi în felul următor:

fisier1.forma

Acest atribut nu are paranteze, deoarece vă oferă doar un tuplu de rânduri și coloane. Veți folosi atributul .shape destul de des în timp ce vă curățați datele.

Aflați și: Salariu pentru dezvoltatori Python în India

Concatenare

Să discutăm acum despre atributul de concatenare în acest tutorial Python Pandas. Concatenarea se referă la unirea a două sau mai multe lucruri împreună. Deci, cu acest atribut, puteți combina două seturi de date fără a le modifica în vreun fel valorile sau punctele de date. Ele se combină așa cum sunt. Va trebui să utilizați funcția .concat() în acest scop. Iată cum:

rezultat = pd.concat([fișier1, fișier2])

Acesta va combina cadrele de date fișier1 și fișier2 și le va afișa ca un singur cadru de date.

df1 = pd.DataFrame({„HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3], „IND_GDP”:[50,45,45,67]}, index=[2001, 2002,2003,2004])

df2 = pd.DataFrame({„HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3],”IND_GDP”:[50,45,45,67]}, index=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

print(concat)

Ieșirea codului de mai sus:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Trebuie să fi observat cum funcția .concat() a combinat cele două cadre de date și le-a convertit într-unul singur.

Schimbarea indexului

Puteți modifica valorile indexului și în cadrul de date. În acest scop, va trebui să utilizați funcția .set_index(). În parantezele acestei funcții, va trebui să introduceți detaliile pentru a modifica indexul. Aruncă o privire la următorul exemplu pentru a-l înțelege mai bine.

importa panda ca pd

df= pd.DataFrame({„Ziua”:[1,2,3,4], „Vizitatori”:[200, 100,230,300], „Rata_de_sări”:[20,45,60,10]})

df.set_index(„Ziua”, inplace= Adevărat)

print(df)

Ieșirea codului de mai sus:

Bounce_Rate Vizitatori

1 20 200

2 45 100

3 60 230

4 10 300

Puteți vedea că codul nostru a schimbat valoarea indexului datelor în funcție de zile.

Modificarea antetelor coloanelor

Puteți modifica anteturile coloanelor și în Python Pandas. Tot ce trebuie să faceți este să utilizați funcția .rename(). Puteți introduce numele coloanelor care au fost prezente inițial în paranteze și numele coloanelor care doriți să apară în codul de ieșire.

Să presupunem că aveți un tabel cu antetul de coloană „Ora” și doriți să îl schimbați în „Ore”. Puteți schimba numele acestei coloane cu următorul cod:

df = df.rename(coloane={„Ora” : „Ore”})

Acest cod va schimba numele antetului coloanei din „Ora” în „Ore”. Aceasta este o funcție excelentă pentru practici eficiente. Să aruncăm o privire la modul în care puteți converti formatele datelor dvs.

Munging de date

Cu data munging, aveți opțiunea de a converti formatul anumitor date. Puteți converti un fișier .csv într-un fișier .html sau invers. Iată un exemplu despre cum puteți face acest lucru:

importa panda ca pd

country= pd.read_csv(„D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)

country.to_html('file1.html')

După ce ați rulat acest cod, va crea un fișier HTML pentru dvs., pe care îl puteți rula în browser. Mungingul de date este o funcție excelentă și veți găsi utilizarea acesteia în multe situații.

Concluzie

Și acum, am ajuns la sfârșitul acestui tutorial Python Pandas. Sperăm că l-ai găsit util și informativ. Python Pandas este un subiect vast și, având în vedere numeroasele funcții pe care le are, ar dura ceva timp pentru ca cineva să se familiarizeze complet cu el.

Dacă sunteți interesat să aflați mai multe despre Python, despre diferitele sale biblioteci, inclusiv despre Pandas, și despre aplicarea sa în știința datelor, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1-la-1 cu mentori din industrie, peste 400 de ore de învățare și asistență la locul de muncă cu firme de top.

Trebuie să cunosc Python pentru a folosi Pandas?

Înainte de a începe cu Pandas, trebuie să înțelegeți că este un pachet creat pentru Python. Deci, cu siguranță trebuie să aveți o stăpânire fermă asupra elementelor de bază, precum și a sintaxei programării Python pentru a începe să utilizați Pandas cu ușurință. Ori de câte ori vine vorba de lucrul cu date tabulare în Python, Pandas este considerată cea mai bună alegere.

Dar, trebuie să înțelegeți cu claritate sintaxa folosită în Python înainte de a începe cu Pandas. Nu este necesar să petreceți o cantitate imensă de timp pe el, dar trebuie doar să acordați suficient timp pentru a vă clarifica sintaxa de bază, astfel încât să puteți începe cu sarcinile care implică Pandas.

Cât durează să înveți Panda în Python?

Pandas este cea mai utilizată bibliotecă Python pentru tratarea datelor tabulare. Puteți folosi Pandas pentru toate sarcinile pentru care ați putea folosi Excel. Dacă știți deja programarea Python și sintaxa acesteia, atunci vă puteți familiariza cu funcționarea Pandas în decurs de două săptămâni. Când începeți cu Pandas, ar trebui să începeți cu proiectele de bază de manipulare a datelor pentru a obține o înțelegere.

Pe măsură ce progresați în continuare, veți observa că Pandas este un instrument de știință a datelor foarte util, care poate fi un factor cheie care conduce deciziile de afaceri în mai multe industrii.

Ar trebui să prefer mai întâi să învăț Numpy sau Pandas?

Este de preferat să înveți Numpy înainte de Pandas, deoarece Numpy este cel mai fundamental modul din Python pentru calculul științific. Veți primi, de asemenea, suportul unor matrice multidimensionale extrem de optimizate, care sunt considerate a fi cea mai de bază structură de date a fiecărui algoritm de învățare automată.

Odată ce ați terminat de învățat Numpy, atunci ar trebui să începeți cu Pandas, deoarece Pandas este considerat a fi o extensie a Numpy. Acest lucru se datorează faptului că codul de bază al lui Pandas utilizează în mod extensiv biblioteca Numpy.