Cheatsheet di Pandas: i migliori comandi che dovresti conoscere [2022]

Pubblicato: 2021-01-06

L'analisi dei dati è diventata un nuovo genere di studio, e tutto grazie a Python. Se sei un appassionato analista di dati che lavora su Python usa quasi assolutamente la libreria Pandas, allora questo articolo fa per te. Questo cheatsheet di Panda esaminerà tutti i metodi essenziali che tornano utili durante l'analisi dei dati. Potresti aver riscontrato situazioni in cui è difficile ricordare la sintassi specifica per fare qualcosa in Pandas. Questi comandi del cheat sheet di Panda ti aiuteranno a ricordare e fare riferimento facilmente alle operazioni più comuni di Pandas. Se sei un principiante in Python e nella scienza dei dati, i corsi di scienza dei dati di upGrad possono sicuramente aiutarti ad immergerti più a fondo nel mondo dei dati e dell'analisi.

Sommario

Usare il Cheatsheet di Pandas
- 1. Importa dati da file diversi
- 2. Esporta DataFrames in diversi formati di file
- 3. Ispeziona una particolare sezione del tuo DataFrame o Series
- 4. Selezione di un sottoinsieme specifico dei tuoi dati
- 5. Comandi di pulizia dei dati
- 6. Raggruppa, Ordina e Filtra dati
- 7. Altri
Conclusione
- Quali sono le caratteristiche salienti delle librerie Pandas?
- Quali sono le altre librerie e strumenti che completano la libreria Pandas?
- Indica le operazioni di base del frame di dati

Usare il Cheatsheet di Pandas

Prima di utilizzare questo cheat sheet di Pandas , dovresti imparare a fondo il Tutorial di Pandas e quindi fare riferimento a questo cheat sheet per ricordarlo e cancellarlo. Il cheat sheet di Pandas ti aiuterà a cercare rapidamente i metodi che hai già imparato e può tornare utile anche se stai andando a un esame o un colloquio. Abbiamo raccolto e raggruppato tutti i comandi usati frequentemente nei Panda da un analista di dati per un facile rilevamento. In questo cheat sheet di Pandas , useremo la seguente scorciatoia per rappresentare oggetti diversi.

df: per rappresentare qualsiasi oggetto Pandas DataFrame
ser: per rappresentare qualsiasi oggetto della serie Pandas

È necessario utilizzare le seguenti librerie pertinenti per l'implementazione dei metodi indicati di seguito in questo articolo.

importa panda come pd
importa numpy come np

Da leggere: Domande sull'intervista ai panda

1. Importa dati da file diversi

Per leggere tutti i dati da un file CSV: pd.read_csv(file_name)
Per leggere tutti i dati da un file di testo delimitato (come TSV): pd.read_table(file_name)
Per leggere da un foglio Excel: pd.read_excel(nome_file)
Per leggere i dati da un database SQL: pd.read_sql(query, connectionObject)
Recupero dei dati da una stringa o un URL formattato JSON: pd.read_json(jsonString)
Per prendere il contenuto degli appunti: pd.read_clipboard()

2. Esporta DataFrames in diversi formati di file

Per scrivere un DataFrame in un file CSV: df.to_csv(file_name)
Per scrivere un DataFrame in un file Excel: df.to_excel(file_name)
Per scrivere un DataFrame in una tabella SQL: df.to_sql(tableName, connectionObject)
Per scrivere un DataFrame in un file in formato JSON: df.to_json(file_name)

3. Ispeziona una particolare sezione del tuo DataFrame o Series

Per recuperare tutte le informazioni relative a indice, tipo di dati e memoria: df.info()
Per estrarre le 'n' righe iniziali del tuo DataFrame: df.head(n)
Per estrarre le 'n' righe finali del tuo DataFrame: df.tail(n)
Per estrarre il numero di righe e colonne disponibili nel tuo DataFrame: df.shape
Per riassumere le statistiche per le colonne numeriche: df.describe()
Per visualizzare i valori univoci insieme ai loro conteggi: ser.value_counts(dropna=False)

4. Selezione di un sottoinsieme specifico dei tuoi dati

Estrarre la prima riga: df.iloc[0,:]
Per estrarre il primo elemento della prima colonna di DataFrame: df.iloc[0,0]
Per restituire colonne con etichetta 'col' come Serie: df[col]
Per restituire colonne con un nuovo DataFrame: df[[col1, col2]]
Per selezionare i dati per posizione: ser.iloc[0]
Per selezionare i dati per indice: ser.loc['index_one']

5. Comandi di pulizia dei dati

Per rinominare le colonne in masse: df.rename(columns = lambda x: x + 1)
Per rinominare le colonne in modo selettivo: df.rename(columns = {'oldName': 'newName'})
Per rinominare l'indice in masse: df.rename(index = lambda x: x + 1)
Per rinominare le colonne in sequenza: df.columns = ['x', 'y', 'z']
Per verificare se esistono valori null, restituisce di conseguenza una matrice booleana: pd.isnull()
Il contrario di pd.isnull(): pd.notnull()
Elimina tutte le righe contenenti valori null: df.dropna()
Elimina tutte le colonne contenenti valori null: df.dropna(axis=1)
Per sostituire ogni valore nullo con 'n': df.fillna(n)
Per convertire tutti i tipi di dati della serie in float: ser.astype(float)
Per sostituire tutti i numeri 1 con 'uno' e 3 con 'tre': ser.replace([1,2], ['uno','due'])

Leggi anche: Pandas Dataframe Astype

6. Raggruppa, Ordina e Filtra dati

Per restituire un oggetto groupby per i valori delle colonne: df.groupby(colm)
Per restituire un oggetto groupby per più valori di colonna: df.groupby([colm1, colm2])
Per ordinare i valori in ordine crescente (per colonna): df.sort_values(colm1)
Per ordinare i valori in ordine decrescente (per colonna): df.sort_values(colm2, ascending=False)
Estrarre le righe in cui il valore della colonna è maggiore di 0,6: df[df[colm] > 0,6]

7. Altri

Aggiungi le righe del primo DataFrame alla fine del secondo DataFrame: df1.append(df2)
Aggiungi le colonne del primo DataFrame alla fine del secondo DataFrame: pd.concat([df1,df2],axis=1)
Per restituire la media di tutte le colonne: df.mean()
Per restituire il numero di valori non nulli: df.count()

Conclusione

Questi cheat sheet di Panda saranno utili solo per un rapido richiamo. È sempre un buon approccio per esercitarsi con i comandi prima di saltare direttamente nel foglio dei trucchi di Pandas .

Se sei curioso di conoscere i Panda, dai un'occhiata all'Executive PG Program in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Quali sono le caratteristiche salienti delle librerie Pandas?

Le seguenti sono le caratteristiche che rendono Pandas una delle librerie Python più popolari: Pandas ci fornisce vari frame di dati che non solo consentono una rappresentazione efficiente dei dati, ma ci consentono anche di manipolarli. Fornisce funzionalità di allineamento e indicizzazione efficienti che forniscono metodi intelligenti per etichettare e organizzare i dati. Alcune funzionalità di Panda rendono il codice pulito e ne aumentano la leggibilità, rendendolo così più efficiente. Può anche leggere più formati di file. JSON, CSV, HDF5 ed Excel sono alcuni dei formati di file supportati da Pandas. La fusione di più set di dati è stata una vera sfida per molti programmatori. I panda superano anche questo e uniscono più set di dati in modo molto efficiente. La libreria Pandas fornisce anche l'accesso ad altre importanti librerie Python come Matplotlib e NumPy, il che la rende una libreria altamente efficiente.

Quali sono le altre librerie e strumenti che completano la libreria Pandas?

Pandas non funziona solo come libreria centrale per la creazione di frame di dati, ma funziona anche con altre librerie e strumenti di Python per essere più efficiente. Pandas è basato sul pacchetto NumPy Python che indica che la maggior parte della struttura della libreria Pandas viene replicata dal pacchetto NumPy. L'analisi statistica sui dati nella libreria Pandas è gestita da SciPy, tracciando funzioni su Matplotlib e algoritmi di apprendimento automatico in Scikit-learn. Jupyter Notebook è un ambiente interattivo basato sul Web che funziona come IDE e offre un buon ambiente per Panda.

Indica le operazioni di base del frame di dati

È importante selezionare un indice o una colonna prima di iniziare qualsiasi operazione come l'aggiunta o l'eliminazione. Dopo aver appreso come accedere ai valori e selezionare le colonne da un Data Frame, puoi imparare ad aggiungere un indice, una riga o una colonna in un Pandas Dataframe. Se l'indice nel frame di dati non risulta essere quello desiderato, è possibile reimpostarlo. Per ripristinare l'indice, puoi utilizzare la funzione "reset_index()".