Visualizzazione dei dati nella programmazione R: le migliori visualizzazioni per i principianti da imparare
Pubblicato: 2020-01-22Chiunque sia coinvolto nell'analisi dei dati ha senza dubbio sentito parlare e persino affrontato la visualizzazione dei dati. Se sei un principiante, scopri tutto sulla visualizzazione dei dati qui. La visualizzazione dei dati è una parte cruciale dell'analisi dei dati e si riferisce alla rappresentazione visiva dei dati sotto forma di grafico, grafico, barra o qualsiasi altro formato. In sostanza, lo scopo della visualizzazione dei dati è rappresentare o rappresentare la relazione tra i dati e le immagini.
L'ascesa dei Big Data ha reso obbligatorio per i data scientist e gli analisti di dati semplificare le informazioni ottenute tramite rappresentazioni visive per facilità di comprensione. Dal momento che i data scientist e gli analisti ora lavorano con grandi quantità di set di dati complessi e voluminosi, la visualizzazione dei dati è diventata più importante che mai. Data Visualization offre un riepilogo visivo o grafico dei dati disponibili, rendendo così più facile per i professionisti di Data Science e Big Data identificare i modelli e le tendenze nascosti all'interno dei dati.
Grazie alla visualizzazione dei dati, i professionisti nei campi Data Science e Big Data non devono sfogliare in modo estensivo migliaia di righe e colonne in un foglio di calcolo: possono fare riferimento alla visualizzazione per capire dove si trovano tutte le informazioni rilevanti all'interno di un set di dati.
Sebbene disponiamo di numerosi strumenti di visualizzazione dei dati autonomi e ingegnosi come Tableau, QlikView e d3.js, oggi parleremo della visualizzazione dei dati nel linguaggio di programmazione R. R è uno strumento eccellente per la visualizzazione dei dati poiché include molte funzioni e librerie integrate che coprono quasi tutte le esigenze di visualizzazione dei dati.
In questo post, discuteremo 8 strumenti di visualizzazione dei dati R utilizzati da data scientist e analisti di tutto il mondo!
Sommario
Gli 8 migliori strumenti di visualizzazione dei dati
1. Grafico a barre
Tutti conoscono i grafici a barre che venivano insegnati nelle scuole e nei college. In R Data Visualization con un grafico a barre, il concetto e l'obiettivo rimangono gli stessi: mostrare un confronto tra due o più variabili. I grafici a barre rappresentano il confronto tra il totale cumulativo tra i vari gruppi. La sintassi standard per creare un grafico a barre in R è:
barplot(H,xlab,ylab,main, names.arg,col)
Esistono molti tipi diversi di grafici a barre che servono a scopi unici. Mentre i grafici a barre orizzontali e verticali sono i formati standard, R può creare barre sia orizzontali che verticali in un grafico. Inoltre, R offre anche un grafico a barre in pila che ti consente di introdurre variabili diverse in ciascuna categoria. In R, il barplot() viene utilizzato per creare grafici a barre.
2. Istogramma
Gli istogrammi funzionano meglio con precisi o numeri in R. Questa rappresentazione suddivide i dati in bin (interruzioni) e descrive la distribuzione di frequenza di questi bin. Puoi modificare i contenitori e vedere quale effetto ha sul modello di visualizzazione. La sintassi standard per creare un istogramma usando R è:
hist(v,main,xlab,xlim,ylim,breaks,col,border)
Gli istogrammi forniscono una stima di probabilità di una variabile, ovvero il periodo di tempo prima del completamento di un progetto. Ciascuna barra in un istogramma rappresenta l'altezza del numero di valori presenti in quell'intervallo. Il linguaggio R usa la funzione hist() per creare istogrammi.
Fonte
3. Box plot
Un box plot rappresenta cinque numeri statisticamente significativi tra cui il minimo, il 25° percentile, la mediana, il 75° percentile e il massimo. Sebbene un box plot condivida molte somiglianze con un grafico a barre, un box plot fornisce la visualizzazione di dati variabili categoriali e continui, invece di concentrarsi solo sui dati categoriali. La sintassi standard per creare un boxplot in R è:
boxplot(x, data, notch, varwidth, names, main)
R crea box plot usando la funzione boxplot(). Questa funzione può accettare un numero qualsiasi di vettori numerici e disegnare un boxplot per ogni vettore. I box plot sono i più adatti per visualizzare la diffusione dei dati e di conseguenza derivare inferenze basate su di essi.
Impara i corsi di scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.
4. Grafico a dispersione
I grafici a dispersione rappresentano numerosi punti nel piano cartesiano, in cui ogni punto rappresenta i valori di due variabili. È possibile scegliere una variabile nell'asse orizzontale e la seconda nell'asse verticale. La funzione di un grafico a dispersione è di tenere traccia di due variabili continue nel tempo. In R, la funzione plot() viene utilizzata per creare un grafico a dispersione. La sintassi standard per la creazione di un grafico a dispersione in R è:
plot(x, y, main, xlab, ylab, xlim, ylim, assi)
I grafici a dispersione sono ottimi nei casi in cui si desidera evitare la disinformazione nella visualizzazione. Questi sono più adatti per una semplice ispezione dei dati.

5. Correlogramma
Un correlogramma, o matrice di correlazione, analizza la relazione tra ciascuna coppia di variabili numeriche in un set di dati. Fornisce una rapida panoramica del set di dati completo. I correlogrammi possono anche evidenziare la quantità di correlazione tra i set di dati in vari momenti.
In R, il pacchetto GGally è ideale per costruire correlogrammi. Per creare un correlogramma classico (con un diagramma a dispersione, un coefficiente di correlazione e una distribuzione variabile), puoi usare la funzione ggpairs(). Un altro ottimo pacchetto per la creazione di correlogrammi è il pacchetto corrgram. In questo pacchetto puoi scegliere cosa visualizzare (grafico a dispersione, grafico a torta, testo, ellisse, ecc.) nella parte superiore, inferiore e diagonale della rappresentazione. Per creare un correlogramma usando il pacchetto corrgram in questo modo:
corrgram(x, order = , panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=)
Fonte
6. Mappa del calore
Le mappe termiche sono rappresentazioni grafiche di dati in cui i singoli valori contenuti in una matrice sono rappresentati tramite colori diversi. Le mappe di calore consentono di eseguire analisi esplorative dei dati con due dimensioni come asse e l'intensità del colore rappresenta la terza dimensione. In R, la funzione heatmap() viene utilizzata per creare mappe di calore. Prima di creare una mappa termica, è necessario convertire il set di dati in un formato matrice utilizzando il codice seguente:
> heatmap(as.matrix(mtcars))
Ci sono tre opzioni per creare mappe termiche interattive in R:
- plotly – Con plotly, puoi convertire qualsiasi mappa termica creata con ggplot2 in una mappa termica interattiva.
- d3heatmap – Questo pacchetto usa la stessa sintassi della funzione base R heatmap() per creare mappe termiche interattive.
- heatmaply – Questo è il più personalizzabile di tutti i pacchetti R. Ti consente di optare per molti diversi tipi di opzioni di personalizzazione.
7. Binning esagonale
Il binning esagonale è un tipo di istogramma bivariato più adatto per visualizzare la struttura in set di dati con n grande. Il concetto alla base qui è:
- Una griglia regolare di esagoni punteggia il piano XY sull'insieme [range(x), range(y)].
- Il numero di punti che cadono in ciascun esagono viene contato e memorizzato all'interno di una struttura dati.
- Gli esagoni con conteggio > 0 vengono tracciati utilizzando una scala di colori o variando il raggio dell'esagono in proporzione ai conteggi.
Leggi: Diversi tipi di data scientist
L'algoritmo al lavoro qui è veloce ed efficace nel visualizzare la struttura dei set di dati con n ≥ 106. In R, il pacchetto hexbin contiene un assortimento di funzioni per creare, manipolare e tracciare bin esagonali. Questo pacchetto integra il concetto di binning esagonale di base con molte altre funzioni per eseguire lo smoothing bivariato, trovare una mediana bivariata approssimativa e studiare la differenza tra due insiemi di bin sulla stessa scala.
8. Trama a mosaico
Nella programmazione R, il diagramma a mosaico è utile durante la visualizzazione dei dati dalla tabella di contingenza o dalla tabella di frequenza a due vie. È una rappresentazione grafica di una tabella di contingenza bidirezionale che rappresenta la relazione tra due o più variabili categoriali. La trama del mosaico R crea un rettangolo in cui l'altezza rappresenta il valore proporzionale. La sintassi standard per creare una trama a mosaico in R è:
mosaicplot(x, color = NULL, main = “Titolo”)
In sostanza, un grafico a mosaico è un'estensione multidimensionale di un grafico a spina dorsale che riassume le probabilità condizionali di co-occorrenza dei valori categoriali in un elenco di record aventi la stessa lunghezza. Aiuta a visualizzare i dati da due o più variabili qualitative.
Leggi: Stipendio per scienza dei dati e analisi
Avvolgendo
Poiché tutti i settori del settore continuano a fare affidamento sui Big Data per promuovere il business e il marketing basati sui dati, anche l'importanza della visualizzazione dei dati aumenterà contemporaneamente. Poiché le tecniche di visualizzazione come grafici e grafici sono strumenti molto più efficienti per la visualizzazione dei dati rispetto ai tradizionali fogli di calcolo e ai report arcaici, gli strumenti di visualizzazione dei dati R stanno guadagnando costantemente popolarità nei circoli di data science e big data.
Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al nostro PG Diploma in Data Science, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 contro 1 con tutor del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.
Quale dovrei imparare: R o Python?
Python e R sono entrambi considerati abbastanza semplici da imparare. Python è stato creato pensando allo sviluppo del software. Se hai una precedente esperienza con Java o C++, Python potrebbe venire da te più facilmente di R. R, d'altra parte, potrebbe essere un po' più facile se hai un background in statistica. La sintassi di facile comprensione di Python semplifica l'apprendimento. R ha una curva di apprendimento più alta all'inizio, ma diventa notevolmente più facile man mano che continui a esercitarti.
Tableau è lo strumento migliore per la visualizzazione dei dati?
Tableau è uno degli strumenti di visualizzazione dei dati più popolari sul mercato per due motivi: è semplice da usare e abbastanza potente. Il programma può importare dati da centinaia di fonti e generare dozzine di stili di visualizzazione, inclusi grafici, mappe e molto altro.
Quali sono le differenze tra R e RStudio?
R è un linguaggio di programmazione per il calcolo statistico e RStudio è un ambiente di programmazione statistica che sfrutta R. È possibile creare un programma in R ed eseguirlo senza utilizzare altri software. Tuttavia, affinché RStudio funzioni in modo efficace, deve essere utilizzato insieme a R.