Vizualizare box Plot cu panda [Ghid cuprinzător]

Publicat: 2020-09-03

În timp ce vă ocupați de orice proiect de analiză a datelor statistice, există multe instrumente utile pe care le puteți aplica. Ideea de bază este să identifici întrebarea și să folosești funcția necesară pentru a răspunde la acea întrebare. De exemplu, dacă trebuie văzută distribuția datelor, răspunsul ideal este reprezentarea unei funcții de distribuție a datelor.

Dacă este necesar să vedeți valorile și să le comparați cu valoarea celorlalte coloane, cel mai bun mod este să reprezentați un grafic cu bare sau histogramă. Dar ce se întâmplă dacă o interogare statistică trebuie să fie satisfăcută? Tendința poate fi observată într-o funcție de distribuție, dar nu există o ieșire ușoară dacă trebuie să verificăm o anumită percentilă de date. Consultați formarea noastră în domeniul științei datelor de la universități recunoscute pentru a câștiga avantaj în fața concurenței.

Boxplot vine ca o soluție la problema de mai sus. Boxploturile sunt folosite pentru a descrie valorile percentilei atributului, conform coloanei pe care este trasat. Boxplot poate fi destul de perspicace în inginerie de model bazată pe reguli, precum și în analiza exploratorie a datelor în general.

Boxplot se ocupă cu quartile.

Să tragem mai întâi o diagramă cu panda și apoi să înțelegem părțile acestuia.

Cuprins

Trasarea unui Pandas Boxplot

Pentru a implementa un boxplot Pandas , există doar două cerințe, Pandas și matplotlib. Utilizarea matplotlib este de a vizualiza diagramele și de a vedea diagramele din interiorul notebook-ului Jupyter.

Iată cum importăm ambele biblioteci. Folosim funcția magică inline, astfel încât parcelele să poată fi văzute direct în interiorul caietului.

Cod:

importa panda ca pd

import matplotlib.pyplot ca plt

%matplotlib inline

Acum, importăm datele noastre și le citim într-un DataFrame. Iată cum să o faci.

Cod:

date = pd.read_csv(„FIFA 2018 Statistics.csv”)

DataFrame este structura de date fundamentală a lui Pandas. Iată primele cinci mostre ale datelor noastre.

După ce datele sunt importate, putem folosi direct funcția panda boxplot peste obiectul DataFrame. Iată cum să-l folosești:

Cod:

data.boxplot(by=”Round”, column=['Goal Scored'])

Funcția panda boxplot are două argumente. Parametrul „by” este utilizat pentru a selecta axa X. Și „coloana” sunt datele de reprezentat pe axa Y.

Aici reprezentăm golurile marcate pe runde.

Iată intriga:

Checkout: Întrebări de interviu Python

Citirea boxploturilor

Acum haideți să citim intrigile. În primul rând, înțelegeți valorile axei. Axa Y are numărul de goluri marcate în meci, iar axa X arată rundele în care s-a jucat jocul. Să luăm exemplul rundei finale.

Dacă observăm cu atenție, cutia este făcută undeva între doi și patru, cu linia de mijloc la trei. Caseta este reprezentată grafic folosind trei valori - valorile percentilei 25, 50 și 75. Linia inferioară a graficului indică percentila 25 a golurilor marcate în meci, mijlocul denotă percentila 50, iar linia superioară indică percentila 75. Deci, boxplot funcționează cu intervalul inter-quartile (IQR) de date.

Citiți: Tutorial Python Pandas: Tot ce trebuie să știe începătorii despre Python Pandas

Acum, mai este un lucru desenat deasupra și dedesubtul casetei. Aceste linii sunt cunoscute sub numele de mustăți. Prin urmare, uneori boxplot este cunoscut și sub numele de box-and-whiskers plot.

Nu există nicio modalitate unică de a reprezenta mustățile. Cel mai obișnuit mod de a desemna mustăți este de a le marca la valorile minime și maxime din coloana de date. Unele biblioteci precum seaborn folosesc o valoare multiplicativă a IQR pentru a marca mustățile. Pandas boxplot folosește valorile maxime și minime pentru a marca mustățile.

Dacă observi, există câteva puncte între patru și șase. Acestea sunt cunoscute ca valori aberante. Boxploturile sunt rezonabil de utile în sistemele bazate pe reguli ca calculul erorilor sau pot identifica rapid clasificările greșite. De exemplu, în grafic, dacă trebuie doar să distingeți între rundele de pe locul 3 și rundele finale, puteți crea cu ușurință un sistem bazat pe reguli, care vă va clasifica cu exactitate datele. Dacă între zero și doi, marcați a treia rundă, iar dacă între doi și patru, marcați runda finală.

Boxploturile ajută la înțelegerea distribuției generale a coloanelor de date. Graficele arată distribuțiile utilizând valorile quartilelor. Vă ajută să analizați rapid datele, deoarece distribuția a fost marcată corespunzător. Mustații indică valorile rămase în coloană.

Concluzie

Capătul inferior indică datele mai mici de 25%, în timp ce capătul superior denotă datele mai mari de 75%. Dacă valorile aberante sunt mai puține, boxploturile panda pot ajuta la identificarea rapidă a acestora. În general, dacă le puteți citi corect, boxplot-urile sunt incredibil de utile în analiza datelor.

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Ce tip de date sunt prezentate de un box plot?

Vizualizarea box plot este foarte utilizată în statisticile descriptive. Este un tip de diagramă care este adesea folosit pentru analiza exploratorie a datelor. Afișând quartilele (procentele) și mediile, diagramele cu casete pot prezenta vizual distribuția datelor numerice împreună cu asimetria acesteia.

Rezumatul unui set de date este afișat cu ajutorul diagramelor cu casete în format vizual în cinci categorii diferite. Datele furnizate de box plot sunt:

1. Punctajul minim
2. Mai întâi sau putem spune quartila inferioară
3. Mediana box plot Al treilea sau putem spune quartila superioară
4.Scor maxim

Datele de aici sunt împărțite în diferite secțiuni pentru a facilita reprezentarea datelor și înțelegerea datelor destul de ușor vizual.

De ce se consideră că diagramele cu casete sunt utile?

Lucrarea box plots este de a împărți un set de date în diferite secțiuni, în care fiecare secțiune conține aproximativ 25% din date. Box-ploturile sunt considerate a fi cu adevărat utile, deoarece oferă un rezumat vizual al datelor prezente. Acest lucru le permite cercetătorilor să identifice cu ușurință valorile medii, să găsească semnele de asimetrie și să cunoască dispersia setului de date.

Graficul cu casete vă poate oferi o imagine vizuală pentru a vedea dacă setul de date statistice este denaturat sau distribuit în mod normal. Dacă este distribuit în mod normal, mediana va fi în mijlocul cutiei, iar caseta va fi simetrică. Pe de altă parte, caseta va fi asimetrică, iar mediana va fi spre partea de jos sau de sus a casetei atunci când distribuția este înclinată.

Putem folosi Pandas pentru vizualizarea datelor?

Pandas este cunoscut a fi cea mai utilă bibliotecă în limbajul Python când vine vorba de Data Science. Pandas s-a dovedit a fi cu adevărat util pentru manipularea, importarea și, de asemenea, curățarea seturilor de date. În afară de asta, Pandas este, de asemenea, utilizat pe scară largă pentru vizualizarea datelor.

În vizualizarea datelor, Pandas este folosit pentru a reprezenta diferite diagrame de bază. Funcționalitățile acestei biblioteci se găsesc și în vizualizarea datelor în serie de timp. Cu cuvinte simple, se poate spune că dacă doriți să reprezentați o bară simplă, să numărați diagrame sau linii, ar trebui să utilizați Pandas în vizualizarea datelor.