Tutorial sui panda Python: tutto ciò che i principianti devono sapere sui panda Python

Pubblicato: 2020-03-26

In questo articolo, daremo un'occhiata a una delle popolari librerie di Python essenziali per i professionisti dei dati, Pandas. Impareresti le sue basi e le sue operazioni.

Iniziamo.

Sommario

Cos'è Panda?

Python Pandas è popolare per molte ragioni. La sua applicazione principale è la manipolazione dei dati, la sua analisi e la pulizia. Puoi usarlo per vari tipi di dati e set di dati, inclusi dati senza etichetta e dati di serie temporali ordinati. Per dirla semplicemente, possiamo dire che Pandas è la casa dei tuoi dati. Con questo strumento puoi eseguire numerose operazioni sui tuoi dati.

Puoi convertire il formato dei dati di un file, unire due set di dati, eseguire calcoli, visualizzarlo facendo ricorso all'aiuto di Matplotlib, ecc. Con così tante funzionalità, è una scelta popolare tra i professionisti dei dati. Ecco perché impararlo è essenziale. E senza capirne il funzionamento, non puoi usarlo, quindi in questo tutorial di Python Pandas ci concentreremo sullo stesso.

Leggi: Librerie di visualizzazione dei dati Python

Ruolo dei panda nella scienza dei dati

La libreria Pandas è parte integrante dell'arsenale di qualsiasi professionista dei dati. È basato su NumPy, che è un'altra popolare libreria Python. Gran parte della struttura di NumPy è presente in Panda, quindi se hai familiarità con il primo, non avresti alcuna difficoltà a familiarizzare con il secondo.

Il più delle volte, gli esperti utilizzano Panda per alimentare i dati in SciPy per l'analisi statistica. Usano questi dati anche con Matplotlib o Scikit-learn per le loro funzioni (funzioni di tracciamento e apprendimento automatico, rispettivamente).

Scopri di più sulle librerie di machine learning di Python.

Prerequisiti

Prima di iniziare a discutere del funzionamento di Python Pandas e delle sue operazioni, dovremmo prima chiarire chi può usarlo correttamente e chi no. Dovresti prima avere familiarità con il codice sottostante di Python e NumPy.

Il primo, cioè i fondamenti di Python, è vitale per ovvi motivi. Non capiresti molto senza sapere come funziona il codice Python. E anche se lo facessi, non saresti in grado di provare il codice poiché avresti comunque bisogno di imparare prima il codice sottostante.

Il secondo, NumPy, è essenziale per imparare perché Pandas si basa su di esso. Avere una conoscenza di NumPy ti aiuterà notevolmente a familiarizzare con i Panda.

Puoi conoscere Python attraverso i nostri blog sulla scienza dei dati e Python . Abbiamo molte guide e articoli utili che possono farti familiarizzare con le basi. È gratuito e se hai dei dubbi puoi scriverli nella sezione commenti.

Se hai familiarità con entrambi gli argomenti che abbiamo menzionato, diamo un'occhiata a Panda in modo approfondito:

Installazione di Panda

Per utilizzare Panda, dovrai installarlo. La cosa migliore è che l'installazione e l'importazione di Panda è molto semplice. Basta aprire la riga di comando (se usi un Mac, dovrai aprire il terminale) e installare Pandas usando questi codici:

Per gli utenti di PC: pip installa panda

Per utenti Mac: conda installa panda

In Pandas, avrai a che fare con serie e frame di dati. Mentre una serie fa riferimento a una colonna, un frame di dati fa riferimento a una tabella multidimensionale con più serie. Diamo ora un'occhiata alle operazioni che puoi eseguire in Pandas.

Operazioni in Panda

Ora che ne abbiamo discusso l'importanza e la definizione, dovremmo ora considerare le azioni che puoi eseguire in questo tutorial di Python Pandas. Pandas ti offre molte funzioni e le abbiamo discusse di seguito:

Visualizzazione dei dati

Ti consigliamo di stampare alcune delle righe del tuo set di dati all'inizio per conservarle come riferimento visivo. E puoi farlo con la funzione .head().

file1.head()

Questa funzione fornisce le prime cinque righe del frame di dati. Se vuoi ottenere più righe delle prime cinque, puoi semplicemente passare il numero richiesto nella funzione. Supponiamo di volere le prime 15 righe del frame di dati, scriverai il seguente codice:

file1.head(15)

Hai anche la possibilità di visualizzare le ultime cinque righe del frame di dati. Puoi farlo usando la funzione .tail(). E proprio come la funzione .head(), anche la funzione .tail() può accettare un numero e darti la quantità richiesta di righe.

file1.tail(20)

Questo codice ti darebbe le ultime 20 righe del tuo frame di dati.

Ottenere informazioni

Una delle prime funzioni che i data scientist utilizzano con Pandas è .info(). Questo perché mostra informazioni sul frame di dati e ti dà una comprensione più profonda di ciò con cui stai lavorando. Ecco come lo usi in Panda:

file1.info()

Fornisce molte informazioni utili sul set di dati, come la quantità dei valori non nulli, il numero di righe, il tipo di dati presenti in una colonna, ecc.

Conoscere il tipo di dati dei valori del frame di dati è essenziale in molti casi. Supponiamo di dover eseguire operazioni aritmetiche sui dati ma ha stringhe. Quando esegui le tue operazioni matematiche, vedrai apparire un errore perché non puoi eseguire tali operazioni sulle stringhe. Se invece dovessi usare la funzione .info() prima di eseguire qualsiasi operazione, sapresti già di avere delle stringhe.

Mentre la funzione .info() mostra le informazioni generali sul tuo set di dati, l'attributo .shape ti fornisce una tupla del tuo frame di dati. Puoi scoprire quante righe e colonne ha il tuo set di dati con l'aiuto dell'attributo .shape. E puoi usarlo nel modo seguente:

file1.forma

Questo attributo non ha parentesi perché ti dà solo una tupla di righe e colonne. Utilizzerai l'attributo .shape abbastanza spesso durante la pulizia dei tuoi dati.

Impara anche: Stipendio per sviluppatori Python in India

Concatenazione

Discutiamo ora dell'attributo di concatenazione in questo tutorial di Python Pandas. La concatenazione si riferisce all'unione di due o più cose insieme. Quindi, con questo attributo, puoi combinare due set di dati senza modificarne in alcun modo valori o punti dati. Si combinano insieme così com'è. Dovrai usare la funzione .concat() per questo scopo. Ecco come:

risultato = pd.concat([file1,file2])

Unirà i frame di dati file1 e file2 e li mostrerà come un unico frame di dati.

df1 = pd.DataFrame({"HPI":[80,90,70,60]",Int_Rate":[2,1,2,3], "IND_GDP":[50,45,45,67]}, indice=[2001, 2002,2003,2004])

df2 = pd.DataFrame({"HPI":[80,90,70,60]",Int_Rate":[2,1,2,3]",IND_GDP":[50,45,45,67]}, indice=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

stampa (concat)

L'output del codice sopra:

Tasso_int. HPI IND_GDP

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Devi aver notato come la funzione .concat() ha combinato i due dataframe e li ha convertiti in uno.

Modifica dell'indice

Puoi anche modificare i valori dell'indice nel tuo frame di dati. A tale scopo, dovrai utilizzare la funzione .set_index(). Tra parentesi di questa funzione, dovresti inserire i dettagli per modificare l'indice. Dai un'occhiata al seguente esempio per capirlo meglio.

importa panda come pd

df= pd.DataFrame({"Giorno":[1,2,3,4], "Visitatori":[200, 100,230,300], "Frequenza_rimbalzo":[20,45,60,10]})

df.set_index("Giorno", inplace= Vero)

stampa (df)

L'output del codice sopra:

Visitatori con frequenza di rimbalzo

Giorno

1 20 200

2 45 100

3 60 230

4 10 300

Puoi vedere che il nostro codice ha modificato il valore dell'indice dei dati in base ai giorni.

Modifica delle intestazioni delle colonne

Puoi anche modificare le intestazioni delle colonne in Python Pandas. Tutto quello che devi fare è usare la funzione .rename(). È possibile inserire tra parentesi i nomi delle colonne che erano inizialmente presenti e i nomi delle colonne che si desidera appaiano nel codice di output.

Supponiamo di avere una tabella con l'intestazione di colonna "Ora" e di volerla modificare in "Ore". È possibile modificare il nome di questa colonna con il seguente codice:

df = df.rename(columns={"Ora" : "Ore"})

Questo codice cambierà il nome dell'intestazione della colonna da "Ora" a "Ore". Questa è una funzione eccellente per pratiche efficienti. Diamo un'occhiata a come puoi convertire i formati dei tuoi dati.

Munging di dati

Con il data munging, hai la possibilità di convertire il formato di dati specifici. Puoi convertire un file .csv in un file .html o viceversa. Ecco un esempio di come puoi farlo:

importa panda come pd

country= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)

country.to_html('file1.html')

Dopo aver eseguito questo codice, creerà un file HTML per te, che puoi eseguire sul tuo browser. Il data munging è una funzione eccellente e troverai il suo utilizzo in molte situazioni.

Conclusione

E ora, abbiamo raggiunto la fine di questo tutorial di Python Pandas. Ci auguriamo che tu l'abbia trovato utile e informativo. Python Pandas è un argomento vasto e, con le numerose funzioni che ha, ci vorrebbe del tempo per familiarizzare completamente con esso.

Se sei interessato a saperne di più su Python, le sue varie librerie, inclusi Pandas, e la sua applicazione nella scienza dei dati, dai un'occhiata al Diploma PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 contro 1 con tutor del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Devo conoscere Python per usare Panda?

Prima di iniziare con Pandas, devi capire che si tratta di un pacchetto creato per Python. Quindi, devi assolutamente avere una presa salda sulle basi e sulla sintassi della programmazione Python per iniziare a usare Pandas con facilità. Ogni volta che si tratta di lavorare con dati tabulari in Python, Pandas è considerata la scelta migliore.

Ma è necessario chiarire la sintassi utilizzata in Python prima di iniziare con Pandas. Non è necessario dedicarci molto tempo, ma devi solo dedicare abbastanza tempo per chiarire la sintassi di base in modo da poter iniziare con attività che coinvolgono Panda.

Quanto tempo ci vuole per imparare i Panda in Python?

Pandas è la libreria Python più utilizzata per gestire i dati tabulari. Puoi utilizzare Panda per tutte le attività per le quali potresti utilizzare Excel. Se sei già a conoscenza della programmazione Python e della sua sintassi, puoi facilmente familiarizzare con il funzionamento di Pandas entro due settimane. Quando inizi con Panda, dovresti iniziare con i progetti di manipolazione dei dati di base per avere un controllo.

Man mano che avanzi, noterai che Pandas è uno strumento di data science molto utile che può essere un fattore chiave che guida le decisioni aziendali in diversi settori.

Dovrei preferire imparare prima Numpy o Pandas?

È preferibile imparare Numpy prima di Pandas perché Numpy è il modulo più fondamentale in Python per il calcolo scientifico. Riceverai anche il supporto di array multidimensionali altamente ottimizzati che sono considerati la struttura dati più basilare di ogni algoritmo di Machine Learning.

Una volta che hai finito di imparare Numpy, dovresti iniziare con Pandas perché Pandas è considerato un'estensione di Numpy. Questo perché il codice sottostante di Pandas utilizza ampiamente la libreria Numpy.