Pandas concatena cadre de date [2022]
Publicat: 2021-01-06Imaginați-vă că aveți două seturi de date pe care trebuie să le combinați pentru a efectua analiza. În timpul utilizării SQL, înregistrările din două sau mai multe tabele dintr-o bază de date pot fi combinate folosind îmbinări SQL. În mod similar, există și opțiuni în Python pentru a concatena cadre de date. Deci, ce este un cadru de date? Un cadru de date în Python are mai multe rânduri și coloane. Este similar cu un tabel în SQL. Aveți biblioteca de software Pandas pentru analiza datelor în Python. Pandas concatena cadrele de date ne ajută să combinăm cadrele de date pe baza unei anumite logică.
Diferite moduri de combinare a cadrelor de date:
- Inner Join: Inner Join este destul de asemănătoare cu intersecția a două seturi. În cazul unei îmbinări interioare, este returnat un cadru de date care conține doar acele rânduri care au proprietăți comune. Astfel, fiecare rând din cele două cadre de date combinate ar trebui să aibă valori de coloană corespunzătoare.
- Left Join: o îmbinare stânga returnează toate rândurile din cadrul de date din stânga și numai rândurile care se potrivesc din cadrul de date din dreapta.
- Right Join: o îmbinare dreapta returnează toate rândurile din cadrul de date din dreapta și numai rândurile care se potrivesc din cadrul de date din stânga.
- Unire completă sau exterioară: o îmbinare completă păstrează toate rândurile atât din cadrul de date din stânga, cât și din cadrul de date din dreapta.
Sursă
Să ne uităm acum la funcțiile prezente în Pandas pentru a combina cadre de date sau serii.
Cuprins
Funcții în Pandas
1. Funcția de alăturare
După cum am citit, Python are o mulțime de caracteristici asemănătoare SQL disponibile pentru combinarea datelor. Cadrele de date au un index care acționează ca o adresă. De obicei, indicii de rând sunt denumiți index, în timp ce coloanele sunt adresate prin numele coloanelor. Operația de alăturare vă permite să îmbinați toate coloanele din două cadre de date. Puteți redenumi coloana din stânga și din dreapta prin actualizarea parametrilor „lsuffix” și „rsuffix”. Aveți opțiunea de a alege modul de îmbinare prin actualizarea parametrului „cum”.
2. Funcția de îmbinare
Funcția de îmbinare este destul de similară cu operația de îmbinare. Cu toate acestea, obțineți un control flexibil în timp ce combinați toate coloanele din două cadre de date. Puteți utiliza pe = Nume coloană pentru a îmbina cadrele de date pe coloana comună. Puteți actualiza left_on = Nume coloană sau right_on = Nume coloană pentru a alinia tabelele folosind coloanele din cadrul de date din stânga sau din dreapta ca chei. Alegerea left_index = True sau right_index = True, vă permite să utilizați etichetele de rând din cadrul de date din stânga sau din cadrul de date din dreapta ca chei de unire.
Sintaxă:
DataFrame.merge( self , right , how='left' , on=None , left_on=None ,
right_on=Niciuna , left_index=Fals , right_index=Fals , sort=Fals , sufixe=('_x' , '_y') , copy=True , indicator=Fals , validate=Niciunul )
Citiți: Întrebări la interviu Pandas

3. Funcția Concat
Folosind funcția Concat, puteți combina datele pe coloane sau rânduri în funcție de alegerea dvs. Puteți seta logica îmbinării (stânga/dreapta/interioară/completă) pe oricare dintre cele două axe. De asemenea, aveți o opțiune de a verifica dacă noua axă concatenată are valori duplicate prezente folosind verify_integrity. Dacă nu este specificată nicio valoare a indicelui pe axa de concatenare, axa rezultată va fi etichetată ca 0,1,... n-1. Parametrul chei vă permite să formați o indexare ierarhică folosind cheile transmise.
Sintaxă
pandas.concat( objs , axis=0 , join='left' , join_axes=Niciunul ,
ignore_index=Fals , chei=Niciuna , niveluri=Niciuna , nume=Niciuna ,
verify_integrity=Fals , sort=Niciunul , copy=True )
Citiți: Algoritmul de structură a datelor în Python
Încheierea
După cum am văzut în pandas. Funcțiile DataFrame, merge și join sunt folosite pentru a combina cadre de date care lucrează pe coloane. Există, de asemenea, o opțiune de redenumire a coloanelor pe baza sufixului furnizat. Funcția de îmbinare oferă mai multă flexibilitate în cazul alinierii pe rând. Dimpotrivă, funcția Concat a pandalor poate funcționa fie pe rânduri, fie pe coloane.
Nu se face nicio redenumire a coloanelor în timpul utilizării funcției Concat. Pandas concatenează cadre de date este o caracteristică esențială atunci când trebuie să combinăm două cadre de date. Îmbinarea a două cadre de date folosind anumite condiții vă ajută să pregătiți datele necesare pentru analiză și alte sarcini. Astfel, pentru biblioteca de software panda concatenarea cadrelor de date este o funcție integrală.
Ești interesat să afli mai multe despre diferitele funcții disponibile în panda și să aprofundezi mai mult în Data Analytics? Puteți verifica Diploma PG în Știința datelor oferită de upGrad. Cursurile sunt conduse de experți din industrie și vă vor ajuta să aflați mai multe despre analiza exploratorie a datelor, diferite tehnici de vizualizare a datelor și algoritmi de învățare automată. Începeți-vă cariera în domeniul analizei datelor și al învățării automate cu upGrad.
Care sunt diferitele tipuri de articulații la panda?
Biblioteca Pandas oferă patru tipuri de îmbinări diferite pentru a combina cadre de date. Aceste îmbinări sunt după cum urmează - îmbinarea interioară este cea mai simplă îmbinare pentru a combina cadre de date. Îmbinarea interioară returnează un cadru de date care conține numai acele rânduri care au proprietăți comune. Prin urmare, ambele cadre de date combinate ar trebui să aibă valori comune. Îmbinarea completă sau exterioară returnează toate rândurile ambelor cadre de date din stânga și din dreapta. Cu alte cuvinte, asigură unirea ambelor cadre de date. Uniunea din stânga returnează toate rândurile cadrului de date din stânga împreună cu rândurile care se potrivesc ale cadrului de date din dreapta. Îmbinarea dreaptă este exact opusul îmbinării din stânga. Returnează toate rândurile cadrului de date din dreapta împreună cu rândurile care se potrivesc ale cadrului de date din stânga.
Care sunt diferitele moduri de concatenare a rândurilor sau coloanelor?
Rândurile sau coloanele a două cadre de date pot fi concatenate în următoarele moduri: 1. Concatenarea DataFrame folosind .concat() - aceasta este cea mai simplă modalitate de a concatena două rânduri sau coloane în care folosim funcția „.concat()”. 2. Concatenarea DataFrame prin setarea logicii pe axe - În această metodă, definim logici diferite pe axe. Următoarele sunt modalitățile de a seta axele: Luați unirea (unire = exterioară), luați intersecția (unire = interior), Folosind index specific. 3. Concatenarea DataFrame folosind .append() - funcția „.append()” este folosită chiar înaintea funcției „.concat()” și se concatenează de-a lungul axei = 0. 4. Concatenarea DataFrame prin ignorarea indecșilor - În această metodă , ignorăm indicii fără sens și anexăm cadrul de date. Folosim ignore_index ca argument pentru a ignora indicii care se suprapun.
Ce știi despre funcția de îmbinare?
Funcția de îmbinare este operată pe două cadre de date pentru a îmbina rândurile sau coloanele. Este o operațiune de unire cu memorie mare și seamănă cu bazele de date relaționale. Puteți utiliza pe = Nume coloană pentru a îmbina cadrele de date pe coloana comună.
Puteți actualiza left_on = Nume coloană sau right_on = Nume coloană pentru a alinia tabelele folosind coloanele din cadrul de date din stânga sau din dreapta ca chei. Alegerea left_index = True sau right_index = True, vă permite să utilizați etichetele de rând din cadrul de date din stânga sau din cadrul de date din dreapta ca chei de unire.