Datenvisualisierung in der R-Programmierung: Top-Visualisierungen für Anfänger zum Lernen

Veröffentlicht: 2020-01-22

Jeder, der sich mit Datenanalyse beschäftigt, hat zweifellos von Datenvisualisierung gehört und sich sogar damit beschäftigt. Wenn Sie ein Neuling sind, erfahren Sie hier alles über Datenvisualisierung. Die Datenvisualisierung ist ein entscheidender Teil der Datenanalyse und bezieht sich auf die visuelle Darstellung von Daten in Form eines Diagramms, Diagramms, Balkens oder eines anderen Formats. Der Zweck der Datenvisualisierung besteht im Wesentlichen darin, die Beziehung zwischen Daten und Bildern darzustellen oder darzustellen.

Der Aufstieg von Big Data hat es für Datenwissenschaftler und Datenanalysten zur Pflicht gemacht, die durch visuelle Darstellungen gewonnenen Erkenntnisse zum leichteren Verständnis zu vereinfachen. Da Data Scientists und Analysten heute mit großen Mengen komplexer und umfangreicher Datensätze arbeiten, ist die Datenvisualisierung wichtiger denn je. Die Datenvisualisierung bietet eine visuelle oder bildliche Zusammenfassung der vorliegenden Daten und erleichtert es so Data Science- und Big Data-Experten, die verborgenen Muster und Trends in den Daten zu erkennen.

Dank der Datenvisualisierung müssen Fachleute in den Bereichen Data Science und Big Data nicht ausgiebig Tausende von Zeilen und Spalten in einer Tabelle durchsuchen – sie können sich auf die Visualisierung beziehen, um zu verstehen, wo sich alle relevanten Informationen in einem Datensatz befinden.

Obwohl wir zahlreiche eigenständige und raffinierte Datenvisualisierungstools wie Tableau, QlikView und d3.js haben, werden wir heute über Datenvisualisierung in der Programmiersprache R sprechen. R ist ein hervorragendes Tool für die Datenvisualisierung, da es mit vielen integrierten Funktionen und Bibliotheken ausgestattet ist, die fast alle Anforderungen der Datenvisualisierung abdecken.

In diesem Beitrag werden wir 8 R-Datenvisualisierungstools besprechen, die von Datenwissenschaftlern und Analysten auf der ganzen Welt verwendet werden!

Inhaltsverzeichnis

Top 8 Tools zur Datenvisualisierung

1. Balkendiagramm

Jeder kennt die Balkendiagramme, die in Schulen und Hochschulen gelehrt wurden. Bei der R-Datenvisualisierung mit einem Balkendiagramm bleiben Konzept und Ziel gleich – es soll einen Vergleich zwischen zwei oder mehr Variablen zeigen. Balkendiagramme zeigen den Vergleich zwischen der kumulativen Summe über verschiedene Gruppen hinweg. Die Standard-Syntax zum Erstellen eines Balkendiagramms in R lautet:

barplot(H,xlab,ylab,main, names.arg,col)

Es gibt viele verschiedene Arten von Balkendiagrammen, die einzigartigen Zwecken dienen. Während horizontale und vertikale Balkendiagramme die Standardformate sind, kann R sowohl horizontale als auch vertikale Balken in einem Diagramm erstellen. Außerdem bietet R auch ein gestapeltes Balkendiagramm, mit dem Sie jeder Kategorie verschiedene Variablen hinzufügen können. In R wird barplot() zum Erstellen von Balkendiagrammen verwendet.

2. Histogramm

Histogramme funktionieren am besten mit genauen oder Zahlen in R. Diese Darstellung unterteilt die Daten in Bins (Unterbrechungen) und zeigt die Häufigkeitsverteilung dieser Bins. Sie können die Bins optimieren und sehen, welche Auswirkungen dies auf das Visualisierungsmuster hat. Die Standardsyntax zum Erstellen eines Histogramms mit R lautet:

hist(v,main,xlab,xlim,ylim,breaks,col,border)

Histogramme liefern eine Wahrscheinlichkeitsschätzung einer Variablen, d. h. des Zeitraums vor Abschluss eines Projekts. Jeder Balken in einem Histogramm stellt die Höhe der Anzahl von Werten dar, die in diesem Bereich vorhanden sind. Die R-Sprache verwendet die Funktion hist() zum Erstellen von Histogrammen.

Quelle

3. Boxplot

Ein Boxplot stellt fünf statistisch signifikante Zahlen dar, darunter das Minimum, das 25. Perzentil, den Median, das 75. Perzentil und das Maximum. Obwohl ein Boxplot viele Ähnlichkeiten mit einem Balkendiagramm aufweist, bietet ein Boxplot eine Visualisierung für kategoriale und kontinuierliche Variablendaten, anstatt sich nur auf kategoriale Daten zu konzentrieren. Die Standardsyntax zum Erstellen eines Boxplots in R lautet:

boxplot(x, data, notch, varwidth, names, main)

R erstellt Boxplots mit der Funktion boxplot(). Diese Funktion kann eine beliebige Anzahl numerischer Vektoren aufnehmen und einen Boxplot für jeden Vektor zeichnen. Boxplots eignen sich am besten, um die Streuung der Daten zu visualisieren und daraus entsprechende Rückschlüsse abzuleiten.

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

4. Streudiagramm

Streudiagramme stellen zahlreiche Punkte in der kartesischen Ebene dar, wobei jeder Punkt die Werte von zwei Variablen darstellt. Sie können eine Variable auf der horizontalen Achse und die zweite auf der vertikalen Achse auswählen. Die Funktion eines Streudiagramms besteht darin, zwei kontinuierliche Variablen über die Zeit zu verfolgen. In R wird die Funktion plot() verwendet, um ein Streudiagramm zu erstellen. Die Standardsyntax zum Erstellen von Streudiagrammen in R lautet:

plot(x, y, main, xlab, ylab, xlim, ylim, Achsen)

Streudiagramme eignen sich hervorragend, wenn Sie Fehlinformationen in der Visualisierung vermeiden möchten. Diese eignen sich am besten für eine einfache Dateninspektion.

5. Korrelogramm

Ein Korrelogramm oder eine Korrelationsmatrix analysiert die Beziehung zwischen jedem Paar numerischer Variablen in einem Datensatz. Es bietet einen schnellen Überblick über den gesamten Datensatz. Korrelogramme können auch den Korrelationsbetrag zwischen Datensätzen zu verschiedenen Zeitpunkten hervorheben.

In R ist das GGally-Paket ideal zum Erstellen von Korrelogrammen. Um ein klassisches Korrelogramm (mit Streudiagramm, Korrelationskoeffizient und variabler Verteilung) zu erstellen, können Sie die Funktion ggpairs() verwenden. Ein weiteres großartiges Paket zum Erstellen von Korrelogrammen ist das Paket corrgram. In diesem Paket können Sie auswählen, was im oberen, unteren und diagonalen Teil der Darstellung angezeigt werden soll (Streudiagramm, Tortendiagramm, Text, Ellipse usw.). So erstellen Sie ein Korrelogramm mit dem Corrgram-Paket:

corrgram(x, order = , panel=, lower.panel=, upper.panel=, text.panel=, diag.panel=)

Quelle

6. Wärmekarte

Heatmaps sind grafische Darstellungen von Daten, bei denen einzelne in einer Matrix enthaltene Werte durch unterschiedliche Farben dargestellt werden. Mit Heatmaps können Sie explorative Datenanalysen mit zwei Dimensionen als Achse durchführen, und die Farbintensität stellt die dritte Dimension dar. In R wird die Funktion heatmap() verwendet, um Heatmaps zu erstellen. Bevor Sie eine Heatmap erstellen, müssen Sie den Datensatz mithilfe des folgenden Codes in ein Matrixformat konvertieren:

> Heatmap (as.matrix (mtcars))

Es gibt drei Möglichkeiten, interaktive Heatmaps in R zu erstellen:

  • plotly – Mit plotly können Sie jede mit ggplot2 erstellte Heatmap in eine interaktive Heatmap umwandeln.
  • d3heatmap – Dieses Paket verwendet die gleiche Syntax wie die R-Basisfunktion heatmap(), um interaktive Heatmaps zu erstellen.
  • Heatmaply – Dies ist das am besten anpassbare aller R-Pakete. Sie können sich für viele verschiedene Arten von Anpassungsoptionen entscheiden.

7. Hexagon-Binning

Hexagon-Binning ist eine Art von bivariaten Histogrammen, die sich am besten zur Visualisierung der Struktur in Datensätzen mit großem n eignet. Das zugrunde liegende Konzept ist hier:

  • Ein regelmäßiges Gitter aus Sechsecken punktiert die XY-Ebene über der Menge [range(x), range(y)].
  • Die Anzahl der in jedes Sechseck fallenden Punkte wird gezählt und in einer Datenstruktur gespeichert.
  • Die Sechsecke mit einer Anzahl > 0 werden entweder unter Verwendung eines Farbverlaufs gezeichnet oder indem der Radius des Sechsecks proportional zu den Anzahlen variiert wird.

Lesen Sie: Verschiedene Arten von Data Scientists

Der hier arbeitende Algorithmus ist sowohl schnell als auch effektiv beim Anzeigen der Struktur von Datensätzen mit n ≥ 106. In R enthält das Hexbin-Paket eine Reihe von Funktionen zum Erstellen, Bearbeiten und Zeichnen von Hexagon-Bins. Dieses Paket integriert das grundlegende Hexagon-Binning-Konzept mit vielen anderen Funktionen zum Ausführen einer bivariaten Glättung, zum Finden eines ungefähren bivariaten Medians und zum Untersuchen des Unterschieds zwischen zwei Sätzen von Bins auf derselben Skala.

8. Mosaik-Plot

Bei der R-Programmierung ist das Mosaikdiagramm praktisch, wenn Daten aus der Kontingenztabelle oder der Zwei-Wege-Häufigkeitstabelle visualisiert werden. Es ist eine grafische Darstellung einer Zwei-Wege-Kontingenztabelle, die die Beziehung zwischen zwei oder mehr kategorialen Variablen darstellt. Das R-Mosaikdiagramm erstellt ein Rechteck, in dem die Höhe den proportionalen Wert darstellt. Die Standardsyntax zum Erstellen eines Mosaikdiagramms in R lautet:

Mosaikplot(x, Farbe = NULL, Haupt = „Titel“)

Im Wesentlichen ist ein Mosaikdiagramm eine multidimensionale Erweiterung eines Wirbelsäulendiagramms , das die bedingten Wahrscheinlichkeiten des gemeinsamen Auftretens der kategorialen Werte in einer Liste von Datensätzen gleicher Länge zusammenfasst. Es hilft, Daten von zwei oder mehr qualitativen Variablen zu visualisieren.

Lesen Sie: Data Science & Analytics-Gehalt

Einpacken

Da sich alle Sektoren der Industrie weiterhin auf Big Data verlassen, um datengesteuerte Geschäfte und Marketing zu fördern, wird gleichzeitig auch die Bedeutung der Datenvisualisierung steigen. Da Visualisierungstechniken wie Diagramme und Grafiken viel effizientere Tools für die Datenvisualisierung sind als herkömmliche Tabellenkalkulationen und archaische Berichte, gewinnen R Data Visualization-Tools in Data Science- und Big Data-Kreisen stetig an Popularität.

Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich unser PG-Diplom in Data Science an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten und 1-zu-1 bietet Branchenmentoren, mehr als 400 Stunden Lern- und Arbeitsunterstützung bei Top-Unternehmen.

Welches soll ich lernen – R oder Python?

Python und R gelten beide als recht einfach zu erlernen. Python wurde mit Blick auf die Softwareentwicklung entwickelt. Wenn Sie über Vorkenntnisse in Java oder C++ verfügen, fällt Ihnen Python möglicherweise eher ein als R. R hingegen ist möglicherweise etwas einfacher, wenn Sie einen Hintergrund in Statistik haben. Die leicht verständliche Syntax von Python erleichtert das Erlernen. R hat anfangs eine höhere Lernkurve, aber es wird erheblich einfacher, wenn Sie es weiter üben.

Ist Tableau das beste Tool für die Datenvisualisierung?

Tableau ist aus zwei Gründen eines der beliebtesten Datenvisualisierungstools auf dem Markt: Es ist sowohl einfach zu bedienen als auch sehr leistungsfähig. Das Programm kann Daten aus Hunderten von Quellen importieren und Dutzende von Visualisierungsstilen generieren, darunter Diagramme, Karten und vieles mehr.

Was sind die Unterschiede zwischen R und RStudio?

R ist eine Programmiersprache für statistische Berechnungen und RStudio ist eine statistische Programmierumgebung, die R nutzt. Sie können ein Programm in R erstellen und es ohne Verwendung anderer Software ausführen. Damit RStudio jedoch effektiv funktioniert, muss es in Verbindung mit R verwendet werden.