I panda concatenano i frame di dati [2022]
Pubblicato: 2021-01-06Immagina di avere due serie di dati che devi combinare per eseguire l'analisi. Durante l'utilizzo di SQL, i record di due o più tabelle in un database possono essere combinati utilizzando i join SQL. Allo stesso modo, ci sono anche opzioni in Python per concatenare i frame di dati. Quindi cos'è un frame di dati? Un frame di dati in Python ha più righe e colonne. È simile a una tabella in SQL. Hai la libreria software Pandas per l'analisi dei dati in Python. I panda concatenano i frame di dati ci aiutano a combinare i frame di dati in base a una certa logica.
I diversi modi di combinare i frame di dati:
- Inner Join: Inner join è abbastanza simile all'intersezione di due insiemi. In caso di inner join, viene restituito un frame di dati contenente solo le righe con proprietà comuni. Pertanto, ogni riga nei due frame di dati combinati dovrebbe avere valori di colonna corrispondenti.
- Join sinistro: un join sinistro restituisce tutte le righe dal frame di dati sinistro e solo le righe corrispondenti dal frame di dati destro.
- Join destro: un join destro restituisce tutte le righe del frame di dati di destra e solo le righe corrispondenti del frame di dati di sinistra.
- Join completo o esterno: un join completo mantiene tutte le righe sia dal frame di dati sinistro che dal frame di dati destro.
Fonte
Diamo ora un'occhiata alle funzioni presenti in Panda per combinare frame o serie di dati.
Sommario
Funzioni nei Panda
1. Unisciti alla funzione
Come abbiamo letto, Python ha molte funzionalità simili a SQL disponibili per combinare i dati. I frame di dati hanno un indice che funge da indirizzo. Di solito, gli indici di riga sono indicati come indice mentre le colonne sono indirizzate dai nomi delle colonne. L'operazione di unione consente di unire tutte le colonne di due frame di dati. È possibile rinominare la colonna sinistra e destra aggiornando i parametri "lsuffix" e "rsuffix". Hai un'opzione per scegliere il modo di unire aggiornando il parametro "come".
2. Funzione Unisci
La funzione di unione è abbastanza simile all'operazione di unione. Tuttavia, ottieni un controllo flessibile combinando tutte le colonne da due frame di dati. È possibile utilizzare su = Nome colonna per unire i frame di dati sulla colonna comune. È possibile aggiornare left_on = Nome colonna o right_on = Nome colonna per allineare le tabelle utilizzando le colonne del frame di dati sinistro o destro come chiavi. Scegliendo left_index = True o right_index = True, è possibile utilizzare le etichette di riga dal frame di dati sinistro o dal frame di dati destro come chiavi di unione.
Sintassi:
DataFrame.merge( self , right , how='left' , on=Nessuno , left_on=Nessuno ,
right_on=Nessuno , left_index=False , right_index=False , sort=False , suffissi=('_x' , '_y') , copy=True , indicator=False , validate=Nessuno )
Leggi: Domande per l'intervista ai panda
3. Funzione di concatenazione
Usando la funzione Concat, puoi combinare i dati su colonne o righe in base alla tua scelta. È possibile impostare la logica di unione (sinistra/destra/interno/unione completa) su uno dei due assi. Hai anche un'opzione per verificare se il nuovo asse concatenato ha valori duplicati presenti usando Verify_integrity. Se non viene specificato alcun valore di indice sull'asse di concatenazione, l'asse risultante verrà etichettato come 0,1,... n-1. Il parametro keys consente di formare un'indicizzazione gerarchica utilizzando le chiavi passate.

Sintassi
pandas.concat( objs , axis=0 , join='left' , join_axes=Nessuno ,
ignore_index=Falso , chiavi=Nessuno , livelli=Nessuno , nomi=Nessuno ,
Verify_integrity=False , sort=Nessuno , copy=True )
Leggi: Algoritmo della struttura dei dati in Python
Avvolgendo
Come abbiamo visto in pandas.DataFrame, le funzioni di unione e unione vengono utilizzate per combinare i frame di dati che lavorano su colonne. C'è anche un'opzione per rinominare le colonne in base al suffisso fornito. La funzione di unione offre maggiore flessibilità in caso di allineamento per riga. Al contrario, la funzione Concat dei panda può operare sia su righe che su colonne.
Non viene eseguita alcuna ridenominazione delle colonne durante l'utilizzo della funzione Concat. I panda concatenano i frame di dati è una caratteristica essenziale quando dobbiamo combinare due frame di dati. L'unione di due frame di dati utilizzando determinate condizioni consente di preparare i dati necessari per l'analisi e altre attività. Pertanto, per la libreria software i panda concatenano i frame di dati è una funzione integrale.
Sei interessato a saperne di più sulle varie funzioni disponibili in Panda e ad approfondire l'analisi dei dati? Puoi controllare PG Diploma in Data Science offerto da upGrad. I corsi sono condotti da esperti del settore e ti aiuteranno a saperne di più sull'analisi esplorativa dei dati, varie tecniche di visualizzazione dei dati e algoritmi su Machine Learning. Inizia la tua carriera nel campo dell'analisi dei dati e dell'apprendimento automatico con upGrad.
Quali sono i diversi tipi di articolazioni nei Panda?
La libreria Pandas fornisce quattro tipi di join diversi per combinare frame di dati. Questi join sono i seguenti: Inner join è il join più semplice per combinare i frame di dati. L'inner join restituisce un frame di dati contenente solo le righe con proprietà comuni. Pertanto, entrambi i frame di dati combinati dovrebbero avere valori comuni. Il join completo o esterno restituisce tutte le righe dei frame di dati sinistro e destro. In altre parole, fornisce l'unione di entrambi i frame di dati. Il join sinistro restituisce tutte le righe del frame di dati sinistro insieme alle righe corrispondenti del frame di dati destro. Il join destro è esattamente l'opposto del join sinistro. Restituisce tutte le righe del frame di dati destro insieme alle righe corrispondenti del frame di dati sinistro.
Quali sono i diversi modi di concatenare righe o colonne?
Le righe o le colonne di due frame di dati possono essere concatenate nei seguenti modi: 1. Concatenamento di DataFrame usando .concat() - questo è il modo più semplice per concatenare due righe o colonne dove usiamo la funzione “.concat()”. 2. Concatenare DataFrame impostando la logica sugli assi - In questo metodo, definiamo una logica diversa sugli assi. I seguenti sono i modi per impostare gli assi: Prendi l'unione (join = esterno), prendi l'intersezione (join = interno), Usando un indice specifico. 3. Concatenando DataFrame usando .append() - la funzione ".append()" viene utilizzata appena prima della funzione ".concat()" e concatena lungo l'asse = 0. 4. Concatenando DataFrame ignorando gli indici - In questo metodo , ignoriamo gli indici privi di significato e aggiungiamo il frame di dati. Usiamo ignore_index come argomento per ignorare gli indici sovrapposti.
Cosa sai della funzione di unione?
La funzione di unione viene utilizzata su due frame di dati per unire le righe o le colonne. È un'operazione di join con memoria elevata e ricorda i database relazionali. È possibile utilizzare su = Nome colonna per unire i frame di dati sulla colonna comune.
È possibile aggiornare left_on = Nome colonna o right_on = Nome colonna per allineare le tabelle utilizzando le colonne del frame di dati sinistro o destro come chiavi. Scegliendo left_index = True o right_index = True, è possibile utilizzare le etichette di riga dal frame di dati sinistro o dal frame di dati destro come chiavi di unione.