Visualizzazione del box plot con i panda [Guida completa]

Pubblicato: 2020-09-03

Mentre si ha a che fare con qualsiasi progetto di analisi dei dati statistici, ci sono molti strumenti utili che puoi applicare. L'idea di base è identificare la domanda e utilizzare la funzione necessaria per rispondere a quella domanda. Ad esempio, se è necessario visualizzare la distribuzione dei dati, la risposta ideale è tracciare una funzione di distribuzione dei dati.

Se è necessario visualizzare i valori e confrontarli con il valore delle altre colonne, il modo migliore è tracciare un grafico a barre o un istogramma. Ma cosa succede se una query statistica deve essere soddisfatta? La tendenza può essere osservata in una funzione di distribuzione, ma non c'è una via d'uscita facile se dobbiamo controllare uno specifico percentile di dati. Dai un'occhiata alla nostra formazione sulla scienza dei dati di università riconosciute per ottenere un vantaggio sulla concorrenza.

Boxplot si presenta come una soluzione al problema di cui sopra. I boxplot vengono utilizzati per descrivere i valori percentili dell'attributo, in base alla colonna su cui è tracciato. Boxplot può essere piuttosto perspicace nell'ingegneria dei modelli basata su regole e nell'analisi esplorativa dei dati in generale.

Boxplot si occupa dei quartili.

Cerchiamo prima di tracciare un boxplot di panda e poi capire le parti di esso.

Sommario

Tracciare un boxplot di Panda

Per implementare un boxplot panda, ci sono solo due requisiti, Pandas e matplotlib. L'uso di matplotlib è per visualizzare le trame e vedere le trame all'interno del taccuino di Jupyter.

Ecco come importiamo entrambe le librerie. Usiamo la funzione inline magic in modo che le trame possano essere viste direttamente all'interno del taccuino.

Codice:

importa panda come pd

importa matplotlib.pyplot come plt

%matplotlib in linea

Ora importiamo i nostri dati e li leggiamo in un DataFrame. Ecco come farlo.

Codice:

data = pd.read_csv ("FIFA 2018 Statistics.csv")

DataFrame è la struttura dati fondamentale di Pandas. Ecco i primi cinque campioni dei nostri dati.

Dopo che i dati sono stati importati, possiamo utilizzare direttamente la funzione boxplot panda sull'oggetto DataFrame. Ecco come usarlo:

Codice:

data.boxplot(by=”Round”, column=['Goal Scored'])

La funzione boxplot panda accetta due argomenti. Il parametro 'by' viene utilizzato per selezionare l'asse X. E la "colonna" sono i dati da tracciare sull'asse Y.

Qui stiamo tracciando i goal segnati per round.

Ecco la trama:

Checkout: Domande sull'intervista Python

Leggere i boxplot

Ora leggiamo le trame. Innanzitutto, comprendi i valori dell'asse. L'asse Y indica il numero di goal segnati nella partita e l'asse X mostra i round in cui è stata giocata la partita. Prendiamo l'esempio del round finale.

Se osserviamo attentamente, la scatola è fatta tra due e quattro, con la linea centrale a tre. Il riquadro viene tracciato utilizzando tre valori: il 25°, il 50° e il 75° percentile. La linea inferiore della trama indica il 25° percentile dei gol segnati nella partita, quella centrale il 50° percentile e la linea superiore il 75° percentile. Quindi, boxplot funziona con l'intervallo interquartile (IQR) di dati.

Leggi: Tutorial sui panda Python: tutto ciò che i principianti devono sapere sui panda Python

Ora, c'è un'altra cosa disegnata sopra e sotto la scatola. Queste linee sono conosciute come baffi. Quindi, a volte il boxplot è anche noto come la trama della scatola e dei baffi.

Non esiste un modo unico per tracciare i baffi. Il modo più comune per denotare i baffi è contrassegnarli ai valori minimo e massimo nella colonna dei dati. Alcune biblioteche come Seaborn usano un valore moltiplicativo dell'IQR per contrassegnare i baffi. Il boxplot di Panda utilizza i valori massimo e minimo per contrassegnare i baffi.

Se noti, ci sono alcuni punti tra quattro e sei. Questi sono noti come valori anomali. I boxplot sono ragionevolmente utili nei sistemi basati su regole come calcolo degli errori o possono identificare rapidamente le classificazioni errate. Ad esempio, nel grafico, se hai solo bisogno di distinguere tra round del 3° posto e round finali, puoi facilmente creare un sistema basato su regole, che classificherà accuratamente i tuoi dati. Se tra zero e due, segna il 3° round, e se tra due e quattro, segna il round finale.

I boxplot aiutano a comprendere la distribuzione complessiva delle colonne di dati. I grafici mostrano le distribuzioni utilizzando i valori del quartile. Semplifica l'analisi rapida dei dati, poiché la distribuzione è stata contrassegnata in modo appropriato. I baffi indicano i valori rimanenti nella colonna.

Conclusione

L'estremità inferiore indica i dati inferiori al 25%, mentre l'estremità superiore indica i dati superiori al 75%. Se i valori anomali sono inferiori, i boxplot dei panda possono aiutare a identificarli rapidamente. Nel complesso, se riesci a leggerli correttamente, i boxplot sono incredibilmente utili nell'analisi dei dati.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Che tipo di dati è rappresentato da un box plot?

La visualizzazione del box plot è molto utilizzata nelle statistiche descrittive. È un tipo di grafico che viene spesso utilizzato per l'analisi esplorativa dei dati. Visualizzando i quartili (percentuali) e le medie, i box plot possono rappresentare visivamente la distribuzione dei dati numerici insieme alla sua asimmetria.

Il riepilogo di un insieme di dati viene visualizzato con l'aiuto di box plot in formato visivo in cinque diverse categorie. I dati forniti dal box plot sono:

1. Punteggio minimo
2. Primo o possiamo dire il quartile inferiore
3. Mediana del box plot Terzo o possiamo dire quartile superiore
4.Punteggio massimo

I dati qui sono divisi in diverse sezioni per semplificare la rappresentazione dei dati e la comprensione visiva dei dati abbastanza facilmente.

Perché i box plot sono utili?

Il lavoro dei box plot consiste nel dividere un set di dati in diverse sezioni, in cui ogni sezione contiene circa il 25% dei dati. I box plot si sono rivelati davvero utili perché forniscono un riepilogo visivo dei dati presenti. Ciò consente ai ricercatori di identificare facilmente i valori medi, trovare i segni di asimmetria e conoscere la dispersione dei set di dati.

Il box plot può fornire un'immagine visiva per vedere se il set di dati statistici è distorto o distribuito normalmente. Se è distribuito normalmente, la mediana sarà al centro della scatola e la scatola sarà simmetrica. D'altra parte, la scatola sarà asimmetrica e la mediana sarà verso il basso o la parte superiore della scatola quando la distribuzione è asimmetrica.

Possiamo utilizzare Panda per la visualizzazione dei dati?

Pandas è noto per essere la libreria più utile in linguaggio Python quando si tratta di Data Science. Pandas è davvero utile per manipolare, importare e anche pulire i set di dati. Oltre a questo, Pandas è anche ampiamente utilizzato per la visualizzazione dei dati.

Nella visualizzazione dei dati, Pandas viene utilizzato per tracciare diversi grafici di base. Le funzionalità di questa libreria si trovano anche nella visualizzazione dei dati di serie temporali. In parole semplici, si può dire che se desideri tracciare una semplice barra, contare grafici o linee, dovresti utilizzare Panda nella visualizzazione dei dati.