Top biblioteci de vizualizare a datelor Python despre care ar trebui să știți

Publicat: 2020-03-20

Python poate face multe lucruri cu date. Și una dintre multele sale capacități este vizualizarea. Are mai multe biblioteci pe care le puteți folosi în acest scop. În acest articol, vom arunca o privire asupra unora dintre bibliotecile sale proeminente și a diferitelor grafice pe care le puteți reprezenta prin ele.

Cuprins

Vizualizarea datelor Python

Am împărtășit mai multe exemple în acest articol, asigurați-vă că le încercați folosind un set de date. Să începem:

Biblioteci de vizualizare a datelor Python

Python are multe biblioteci pentru a crea grafice frumoase. Toate au diverse caracteristici care le îmbunătățesc performanța și capacitățile. Și sunt disponibile pentru toate nivelurile de calificare. Aceasta înseamnă că puteți efectua vizualizarea datelor în Python, indiferent dacă sunteți un începător sau un programator avansat. Următoarele sunt câteva biblioteci importante:

  • Seaborn
  • Matplotlib
  • panda

Există multe alte biblioteci Python pentru știința datelor , dar ne-am concentrat pe cele proeminente pentru moment. Acum vom discuta despre aceste biblioteci diferite și vom înțelege cum puteți reprezenta grafice folosindu-le și Python. Să începem.

Matplotlib

Cea mai populară bibliotecă Python pentru trasarea graficelor este Matplotlib. Nu necesită multă experiență, iar pentru începători, este perfect. Puteți începe să învățați vizualizarea datelor prin această bibliotecă și să stăpâniți o varietate de grafice și vizualizări. Îți oferă multă libertate, dar ar trebui să scrii și mult cod.

Oamenii folosesc Matplotlib pentru vizualizări simple, cum ar fi diagrame cu bare și histograme.

Citiți : Cadre de date în Python

Diagramă cu linii

Pentru a crea o diagramă cu linii, ar trebui să utilizați metoda „plot”. Prin bucla coloanele, puteți crea mai multe coloane în grafic. Utilizați următorul cod în acest scop:

# obține coloane pentru a reprezenta un grafic

coloane = iris.columns.drop(['clasa'])

# creați x date

x_data = interval(0, iris.shape[0])

# creați figura și axa

fig, ax = plt.subplots()

# grafic fiecare coloană

pentru coloana în coloane:

ax.plot(x_data, iris[coloană], etichetă=coloană)

# setați titlul și legenda

ax.set_title('Setul de date Iris')

ax.legend()

Graficul de dispersie

Puteți crea o diagramă de dispersie folosind metoda „împrăștiere”. Ar trebui să creați o axă și o figură prin „plt.subplots” pentru a oferi etichetele parcelei și un titlu.

Utilizați următorul cod:

# creați o figură și o axă

fig, ax = plt.subplots()

# împrăștiați lungimea_sepalului față de lățimea_sepalului

ax.scatter(iris['sepal_length'], iris['sepal_width'])

# setați un titlu și etichete

ax.set_title('Setul de date Iris')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

Puteți adăuga culoare punctelor de date în funcție de clasele lor. În acest scop, va trebui să creați un dicționar care ar mapa de la clasă la culoare. Ar împrăștia fiecare punct folosind și o buclă for.

# creați dicționar de culori

culori = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}

# creați o figură și o axă

fig, ax = plt.subplots()

# trasează fiecare punct de date

pentru i în interval (len(iris['sepal_length'])):

ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=culori[iris['clasa'][i]])

# setați un titlu și etichete

ax.set_title('Setul de date Iris')

ax.set_xlabel('sepal_length')

ax.set_ylabel('sepal_width')

Histogramă

Puteți utiliza metoda „hist” pentru a crea o histogramă în Matplotlib. Poate calcula cât de des apare fiecare clasă dacă îi dăm date categorice. Iată codul pe care ar trebui să-l utilizați pentru a reprezenta o histogramă în Matplotlib:

# creați figura și axa

fig, ax = plt.subplots()

# diagramă histogramă

ax.hist(wine_reviews['puncte'])

# setați titlul și etichetele

ax.set_title('Scoruri recenzii vinurilor')

ax.set_xlabel('Puncte')

ax.set_ylabel('Frecventa')

Diagramă cu bare

Matplotlib are metode ușoare de trasare a diferitelor grafice. De exemplu, în acest caz, pentru a crea o diagramă cu bare în Matplotlib, va trebui să utilizați „bara”. Nu poate calcula automat frecvența categoriilor, așa că va trebui să utilizați funcția „value_counts” pentru a rezolva această problemă. Dacă datele dvs. nu au multe tipuri, atunci diagrama cu bare ar fi perfectă pentru vizualizarea acesteia.

# creați o figură și o axă

fig, ax = plt.subplots()

# numărați apariția fiecărei clase

date = wine_reviews['points'].value_counts()

# obțineți datele x și y

puncte = date.index

frecventa = date.valori

# creați diagramă cu bare

ax.bar(puncte, frecvență)

# setați titlul și etichetele

ax.set_title('Scoruri recenzii vinurilor')

ax.set_xlabel('Puncte')

ax.set_ylabel('Frecventa')

panda

Pandas este o bibliotecă Python populară pentru analiza și manipularea datelor. Este o bibliotecă open-source, așa că o puteți folosi gratuit. A intrat pe piață în 2008, iar de atunci, a devenit una dintre cele mai populare biblioteci pentru structurarea datelor.

Folosind cadrul de date panda, puteți crea cu ușurință diagrame pentru datele dvs. API-ul său este mai avansat decât Matplotlib. Aceasta înseamnă că puteți crea grafice cu mai puțin cod în Pandas decât ați face în Matplotlib.

Diagramă cu bare

În Pandas, va trebui să utilizați metoda „plot.bar()” pentru a reprezenta o diagramă cu bare. Mai întâi, va trebui să numărați aparițiile din grafic prin „value_count()” și apoi să le sortați cu „sort_index()”. Iată un exemplu de cod pentru a crea o diagramă cu bare:

random_reviews['puncte'].value_counts().sort_index().plot.bar()

Puteți utiliza metoda „plot.barh()” pentru a crea o diagramă cu bare orizontale în Pandas:

random_reviews['puncte'].value_counts().sort_index().plot.barh()

Puteți reprezenta datele și prin numărul de apariții:

random_reviews.groupby(„țara”).price.mean().sort_values(crescator=False)[:5].plot.bar()

Diagramă cu linii

Va trebui să utilizați „<dataframe>.plot.line()” pentru a crea o diagramă cu linii în Pandas. În Pandas, nu va trebui să parcurgeți fiecare coloană pe care trebuie să o reprezentați, deoarece poate face acest lucru automat. Această caracteristică nu este disponibilă în Matplotlib. Iată codul:

random.drop(['class'], axis=1).plot.line(title='Random Dataset')

Graficul de dispersie

Puteți crea un grafic de dispersie în Pandas folosind „<dataset>.plot.scatter()”. Ar trebui să îi transmiteți două argumente, care sunt numele coloanei x și ale coloanei y.

Iată exemplul său:

random.plot.scatter(x='sepal_length', y='sepal_width', title=”Random Dataset')

Histogramă

Utilizați „plot.hist” pentru a crea o histogramă în Pandas. În afară de asta, nu există prea multe în această metodă. Aveți opțiunea de a crea o singură histogramă sau mai multe histograme.

Pentru a crea o histogramă, utilizați următorul cod:

random_reviews['puncte'].plot.hist()

Pentru a crea mai multe histograme, utilizați aceasta:

random.plot.hist(subplots=True, layout=(2,2), figsize=(10, 10), bins=20)

Seaborn

Seaborn se bazează pe Matplotlib și este, de asemenea, o bibliotecă Python destul de populară pentru vizualizarea datelor. Vă oferă interfețe avansate pentru a vă reprezenta datele. Are multe caracteristici. Capacitățile sale avansate vă permit să creați grafice grozave cu mult mai puține linii de cod decât ați avea nevoie cu Matplotlib.

Histogramă

Diagramă cu linii

Puteți utiliza metoda „sns.line plot” pentru a crea o diagramă cu linii în Seaborn. Puteți folosi metoda „sns.kdeplot” pentru a rotunji marginile curbelor liniilor. Îți păstrează parcela destul de curată dacă are o mulțime de valori aberante.

sns.lineplot(data=random.drop(['clasa'], axa=1))

Graficul de dispersie

În Seaborn, puteți crea un grafic de dispersie prin metoda „.scatterplot”. Va trebui să adăugați numele coloanelor x și y în acest caz, la fel cum am făcut cu Pandas. Dar există o diferență. Nu putem apela funcția pe date așa cum am făcut-o în Pandas, așa că va trebui să o transmitem ca argument suplimentar.

sns.scatterplot(x='sepal_length', y='sepal_width', data=iris)

Folosind argumentul „nuanță”, puteți evidenția și anumite puncte. Această caracteristică nu este atât de ușoară în Matplotlib.

sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)

Diagramă cu bare

Puteți utiliza metoda „sns.countplot” pentru a crea o diagramă cu bare în Seaborn:

sns.countplot(random_reviews['puncte'])

Acum că am discutat despre bibliotecile critice pentru vizualizarea datelor în Python, putem arunca o privire asupra altor forme de grafice. Python și bibliotecile sale vă permit să creați diferite tipuri de cifre pentru a vă reprezenta datele.

Alte tipuri de vizualizare a datelor în Python

Graficul proporțiilor

Diagramele circulare arată datele în diferite secțiuni ale unui cerc. Trebuie să fi văzut o mulțime de diagrame circulare la școală. Diagramele circulare reprezintă datele în procente. Suma totală a tuturor segmentelor unei diagrame circulare ar trebui să fie egală cu 100%. Iată exemplul de cod:

plt.pie(df['Vârsta'], etichete = {„A”, „B”, „C”,

„D”, „E”, „F”,

„G”, „H”, „I”, „J”},

autopct ='% 1,1f %%', umbră = Adevărat)

plt.show()

plt.pie(df['Venit'], etichete = {„A”, „B”, „C”,

„D”, „E”, „F”,

„G”, „H”, „I”, „J”},

autopct ='% 1,1f %%', umbră = Adevărat)

plt.show()

plt.pie(df['Vânzări'], etichete = {„A”, „B”, „C”,

„D”, „E”, „F”,

„G”, „H”, „I”, „J”},

autopct ='% 1,1f %%', umbră = Adevărat)

plt.show()

Box Plots

Diagramele cu casete se bazează pe minimul, primul quartila, mediana, al treilea quartila și un maxim al datelor statistice. Graficul arată ca o casetă (mai precis, un dreptunghi). De aceea are numele „box plot”. Iată un exemplu de cod pentru crearea unui grafic cu diagramă de casete:

# Pentru fiecare atribut numeric al cadrului de date

df.plot.box()

# diagramă cu case de atribut individual

plt.boxplot(df['Venit'])

plt.show()

Citește și: Top 10 instrumente Python pe care fiecare dezvoltator Python ar trebui să le cunoască

Concluzie

Sperăm că ați găsit acest articol util. Există multe tipuri de grafice pe care le puteți reprezenta prin Python și diferitele sale biblioteci. Dacă nu ați efectuat până acum vizualizarea datelor Python, ar trebui să începeți cu Matplotlib. După ce îl stăpânești, poți trece la biblioteci de vizualizare a datelor mai complexe și mai avansate, cum ar fi Pandas și Seaborn.

Dacă sunteți curios să aflați despre python, știința datelor, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1-la-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Care sunt cele mai bune biblioteci de vizualizare a datelor din Python?

Vizualizarea datelor este considerată a fi o parte extrem de importantă a analizei datelor. Acest lucru se datorează faptului că nu există o modalitate mai bună decât înțelegerea mai multor tendințe de date și informații într-un format vizual. Dacă prezentați datele companiei dvs. într-un format scris, oamenii ar putea considera că este plictisitor. Dar, dacă prezentați același lucru într-un format vizual, cu siguranță oamenii îi vor acorda mai multă atenție.

Pentru a simplifica procesul de vizualizare a datelor, există anumite biblioteci în Python pentru a vă ajuta. Nu poți spune că unul anume este cel mai bun, deoarece asta va depinde complet de cerințe. Unele dintre cele mai bune biblioteci de vizualizare a datelor din Python sunt matplotlib, plotly, seaborn, GGplot și altair.

Care este una dintre cele mai bune biblioteci de trasare din Python?

Există o mulțime de ele pentru a vă ușura munca atunci când vine vorba de vizualizarea datelor și bibliotecile de trasare. S-a văzut că printre toate bibliotecile disponibile, Matplotlib este considerată una mai bună de către utilizatori.

Matplotlib ocupă mai puțin spațiu și are, de asemenea, un timp de rulare mai bun. În afară de asta, oferă, de asemenea, un API orientat pe obiecte care permite utilizatorilor să traseze grafice în aplicația în sine. Matplotlib acceptă, de asemenea, o mulțime de tipuri de ieșire, împreună cu acesta fiind gratuit și open-source.

Care este biblioteca implicită de vizualizare a datelor pentru oamenii de știință ai datelor?

Dacă sunteți în știința datelor, atunci există șanse mari să fi folosit deja biblioteca Matplotlib. S-a văzut că de la începători până la profesioniștii experimentați preferă să folosească această bibliotecă pentru a construi vizualizări complexe de date.

Motivul principal din spatele considerației sale uriașe este cantitatea de flexibilitate pe care o oferă utilizatorilor ca bibliotecă de plotare 2D. Dacă aveți un fundal MATLAB, veți putea observa că interfața Pyplot a Matplotlib vă este destul de familiară. Deci, nu veți avea nevoie de mult timp pentru a începe cu prima vizualizare. Utilizatorul poate controla întreaga vizualizare în Matplotlib de la cel mai granul nivel.