Vizualizarea datelor în programarea R: Vizualizări de top pentru începători
Publicat: 2020-01-22Oricine este implicat în analiza datelor a auzit, fără îndoială, și chiar s-a ocupat de vizualizarea datelor. Dacă sunteți începător, aflați aici totul despre vizualizarea datelor. Vizualizarea datelor este o parte crucială a analizei datelor și se referă la reprezentarea vizuală a datelor sub formă de grafic, diagramă, bară sau orice alt format. În esență, scopul vizualizării datelor este de a reprezenta sau de a descrie relația dintre date și imagini.
Creșterea Big Data a făcut ca oamenii de știință și analiștii de date să fie obligatorii să simplifice informațiile obținute prin reprezentări vizuale pentru ușurință de înțelegere. Deoarece oamenii de știință și analiștii de date lucrează acum cu cantități mari de seturi de date complexe și voluminoase, vizualizarea datelor a devenit mai esențială ca niciodată. Vizualizarea datelor oferă un rezumat vizual sau pictural al datelor la îndemână, făcând astfel mai ușor pentru profesioniștii din știința datelor și Big Data identificarea tiparelor și tendințelor ascunse în cadrul datelor.
Datorită Vizualizării datelor, profesioniștii din domeniile Data Science și Big Data nu trebuie să răsfoiască extensiv mii de rânduri și coloane dintr-o foaie de calcul – ei se pot referi la vizualizare pentru a înțelege unde se află toate informațiile relevante într-un set de date.
Deși avem numeroase instrumente de vizualizare a datelor de sine stătătoare precum Tableau, QlikView și d3.js, astăzi vom vorbi despre vizualizarea datelor în limbajul de programare R. R este un instrument excelent pentru vizualizarea datelor, deoarece vine cu multe funcții și biblioteci încorporate care acoperă aproape toate nevoile de vizualizare a datelor.
În această postare, vom discuta despre 8 instrumente de vizualizare a datelor R utilizate de oamenii de știință și analiștii de date din întreaga lume!
Cuprins
Top 8 instrumente de vizualizare a datelor
1. Diagramă cu bare
Toată lumea este familiarizată cu diagramele cu bare care au fost predate în școli și colegii. În R Data Visualization cu o diagramă cu bare, conceptul și scopul rămân aceleași - este de a afișa o comparație între două sau mai multe variabile. Diagramele cu bare descriu comparația dintre totalul cumulat din diferite grupuri. Sintaxa standard pentru a crea o diagramă cu bare în R este:
barplot(H,xlab,ylab,principal, names.arg,col)
Există multe tipuri diferite de diagrame cu bare care servesc unor scopuri unice. În timp ce diagramele cu bare orizontale și verticale sunt formatele standard, R poate crea atât bare orizontale, cât și verticale într-o diagramă. În plus, R oferă și o diagramă cu bare stivuite care vă permite să introduceți diferite variabile în fiecare categorie. În R, barplot() este folosit pentru a crea diagrame cu bare.
2. Histograma
Histogramele funcționează cel mai bine cu numere precise sau în R. Această reprezentare împarte datele în compartimente (se despart) și ilustrează distribuția de frecvență a acestor compartimente. Puteți modifica recipientele și puteți vedea ce efect are asupra modelului de vizualizare. Sintaxa standard pentru crearea unei histograme folosind R este:
hist(v,main,xlab,xlim,ylim,breaks,col,border)
Histogramele oferă o estimare a probabilității unei variabile, adică perioada de timp înainte de finalizarea unui proiect. Fiecare bară dintr-o histogramă reprezintă înălțimea numărului de valori prezente în acel interval. Limbajul R folosește funcția hist() pentru a crea histograme.
Sursă
3. Box Plot
Un diagramă cu casete prezintă cinci numere semnificative din punct de vedere statistic, inclusiv minimul, percentila 25, mediana, percentila 75 și maximul. Deși un diagramă cu casetă are multe asemănări cu o diagramă cu bare, un diagramă cu casete oferă vizualizare pentru date variabile categorice și continue, în loc să se concentreze doar pe datele categoriale. Sintaxa standard pentru a crea un boxplot în R este:
boxplot(x, date, notch, varwidth, names, main)
R creează diagrame cu case folosind funcția boxplot(). Această funcție poate prelua orice număr de vectori numerici și poate desena un boxplot pentru fiecare vector. Diagramele cu casete sunt cele mai potrivite pentru a vizualiza răspândirea datelor și, în consecință, pentru a deduce inferențe pe baza acestora.
Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
4. Graficul de dispersie
Diagramele de dispersie descriu numeroase puncte în planul cartezian, în care fiecare punct reprezintă valorile a două variabile. Puteți alege o variabilă pe axa orizontală și pe a doua pe axa verticală. Funcția unui grafic de dispersie este de a urmări două variabile continue în timp. În R, funcția plot() este folosită pentru a crea un grafic de dispersie. Sintaxa standard pentru crearea diagramei de dispersie în R este:
plot(x, y, main, xlab, ylab, xlim, ylim, axes)
Diagramele de dispersie sunt excelente pentru cazurile în care doriți să evitați dezinformarea în vizualizare. Acestea sunt cele mai potrivite pentru inspecția simplă a datelor.

5. Correlograma
O corelogramă, sau matrice de corelație, analizează relația dintre fiecare pereche de variabile numerice dintr-un set de date. Oferă o privire de ansamblu rapidă a setului de date complet. De asemenea, corelogramele pot evidenția cantitatea de corelație dintre seturile de date în diferite momente în timp.
În R, pachetul GGally este ideal pentru construirea de corelograme. Pentru a crea o corelogramă clasică (cu un grafic de dispersie, coeficient de corelație și distribuție variabilă), puteți utiliza funcția ggpairs(). Un alt pachet grozav pentru crearea de corelograme este pachetul corrgram. În acest pachet, puteți alege ce să afișați (diagrama de dispersie, diagramă circulară, text, elipsă etc.) în partea superioară, inferioară și în diagonală a reprezentării. Pentru a crea o corelogramă folosind pachetul corrgram astfel:
corrgram(x, order = , panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=)
Sursă
6. Harta termică
Hărțile termice sunt reprezentări grafice ale datelor în care valorile individuale conținute într-o matrice sunt reprezentate prin diferite culori. Hărțile termice vă permit să efectuați o analiză exploratorie a datelor cu două dimensiuni ca axă, iar intensitatea culorii ilustrează a treia dimensiune. În R, funcția heatmap() este utilizată pentru a crea hărți termice. Înainte de a construi o hartă termică, trebuie să convertiți setul de date într-un format de matrice folosind următorul cod:
> harta termică(as.matrix(mtcars))
Există trei opțiuni pentru a construi hărți termice interactive în R:
- plotly – Cu plotly, puteți converti orice hartă termică realizată cu ggplot2 într-o hartă termică interactivă.
- d3heatmap – Acest pachet folosește aceeași sintaxă ca și funcția de bază R heatmap() pentru a realiza hărți interactive de căldură.
- heatmaply – Acesta este cel mai personalizabil dintre toate pachetele R. Vă permite să optați pentru multe tipuri diferite de opțiuni de personalizare.
7. Binning hexagonal
Binningul hexagonal este un tip de histogramă bivariată cel mai potrivit pentru vizualizarea structurii în seturi de date cu n mare. Conceptul de bază aici este:
- O grilă obișnuită de hexagoane punctează planul XY peste setul [interval(x), interval(y)].
- Numărul de puncte care se încadrează în fiecare hexagon este numărat și stocat într-o structură de date.
- Hexagoanele cu număr > 0 sunt fie reprezentate folosind o rampă de culoare, fie prin variarea razei hexagonului proporțional cu numărul.
Citiți: Diferite tipuri de oameni de știință ai datelor
Algoritmul care lucrează aici este atât rapid, cât și eficient în afișarea structurii seturilor de date cu n ≥ 106. În R, pachetul hexbin conține o gamă largă de funcții pentru crearea, manipularea și trasarea casetelor hexagonale. Acest pachet integrează conceptul de bază hexagon binning cu multe alte funcții pentru executarea netezirii bivariate, găsirea unei mediane bivariate aproximative și studierea diferenței dintre două seturi de bins pe aceeași scară.
8. Plot mozaic
În programarea R, graficul mozaic este util în timp ce vizualizați datele din tabelul de contingență sau din tabelul de frecvență în două sensuri. Este o reprezentare grafică a unui tabel de contingență bidirecțional care reprezintă relația dintre două sau mai multe variabile categoriale. Graficul mozaic R creează un dreptunghi în care înălțimea reprezintă valoarea proporțională. Sintaxa standard pentru crearea unui grafic mozaic în R este:
mosaicplot(x, culoare = NULL, principal = „Titlu”)
În esență, un diagramă mozaic este o extensie multidimensională a unui grafic al coloanei vertebrale care rezumă probabilitățile condiționate de apariție concomitentă a valorilor categorice într-o listă de înregistrări cu aceeași lungime. Ajută la vizualizarea datelor din două sau mai multe variabile calitative.
Citiți: Salariul Data Science & Analytics
Încheierea
Pe măsură ce toate sectoarele industriei continuă să se bazeze pe Big Data pentru a promova afaceri și marketing bazate pe date, importanța vizualizării datelor va crește, de asemenea, simultan. Deoarece tehnicile de vizualizare precum diagramele și graficele sunt instrumente mult mai eficiente pentru vizualizarea datelor decât foile de calcul tradiționale și rapoartele arhaice, instrumentele R Data Visualization câștigă în mod constant popularitate în cercurile Data Science și Big Data.
Dacă sunteți curios să aflați despre știința datelor, consultați Diploma noastră PG în știința datelor, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1-la-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.
Pe care ar trebui să-l învăț - R sau Python?
Python și R sunt ambele considerate a fi destul de simplu de învățat. Python a fost creat având în vedere dezvoltarea de software. Dacă aveți experiență anterioară cu Java sau C++, Python poate veni mai ușor la dvs. decât R. R, pe de altă parte, poate fi puțin mai ușor dacă aveți experiență în statistică. Sintaxa Python ușor de înțeles face mai ușor de învățat. R are o curbă de învățare mai mare la început, dar devine considerabil mai ușor pe măsură ce îl exersați în continuare.
Este Tableau cel mai bun instrument pentru vizualizarea datelor?
Tableau este unul dintre cele mai populare instrumente de vizualizare a datelor de pe piață din două motive: este atât simplu de utilizat, cât și destul de puternic. Programul poate importa date din sute de surse și poate genera zeci de stiluri de vizualizare, inclusiv diagrame, hărți și multe altele.
Care sunt diferențele dintre R și RStudio?
R este un limbaj de programare pentru calcul statistic, iar RStudio este un mediu de programare statistică care folosește R. Puteți construi un program în R și îl puteți rula fără a utiliza niciun alt software. Cu toate acestea, pentru ca RStudio să funcționeze eficient, trebuie utilizat împreună cu R.