Die sechs am häufigsten verwendeten Datenstrukturen in R
Veröffentlicht: 2020-02-03Als Software-Programmierer und -Codierer müssen Sie sich der Notwendigkeit von Variablen zum Speichern von Daten bewusst sein. Diese Variablen sind an verschiedenen Speicherorten reserviert, um Werte zu speichern. Das Erstellen einer Variablen bedeutet also, etwas Speicherplatz zu reservieren. Es sind diese Daten, die durch Datenstrukturen angeordnet werden, um in einem Computer effizient verwendet zu werden.
Im Gegensatz zu gängigen Programmiersprachen wie C und Java hat R keine Variablen, die als Daten deklariert werden müssen. R hat R-Objekte (Datenstrukturen), die zum Datentyp der erforderlichen Variablen werden. Es gibt verschiedene Arten von Datenstrukturen in R. Aber zuerst wollen wir verstehen, was Datenstrukturen sind!
Inhaltsverzeichnis
Was sind Datenstrukturen?
In R sind Datenstrukturen ein Werkzeug, das mehrere Werte enthält. Beachten Sie, dass in der R-Programmierung kaum Daten mit Einzelwerten verwendet werden. Es ist praktikabler, R zu verwenden, um mehrere Zahlen, Wörter oder Werte unterschiedlichen Typs zusammenzufassen. Hier kommen Datenstrukturen ins Spiel. Sie gruppieren diese mehreren Werte, um das gleichzeitige Arbeiten mit großen Datenmengen zu vereinfachen.
Datenstrukturen bestehen aus Datentypen, die die Art der Daten definieren, die in zvalue gespeichert werden. Beispielsweise ist die Zahl 13 ein numerischer Datentyp , während „ dreizehn “ ein Zeichendatentyp ist , der auch als Zeichenfolge bezeichnet wird.
Nachdem Sie dies nun verstanden haben, sehen wir uns die verschiedenen Datenstrukturtypen an.
Arten von Datenstrukturen
Um die Datenanalyse und -operationen einfach und effizient zu gestalten, gibt es fünf Haupttypen von Datenstrukturen in der R-Programmierung.

Schauen wir uns jeden von ihnen im Detail an.
- Vektor
Die Funktion von R-Vektoren besteht darin, mehrere Werte desselben Datentyps zu gruppieren. Es ist die grundlegendste Art von Datenstruktur in R und besteht aus zwei Teilen: Atomaren Vektoren und Listen. Im Folgenden sind ihre gemeinsamen Eigenschaften aufgeführt:
- Art der Funktion (was es ist)
- Länge der Funktion (Anzahl der Elemente)
- Attribut der Funktion (zusätzliche beliebige Metadaten)
Während atomare Vektoren dazu gedacht sind, denselben Datentyp zu vereinen, können Listen verschiedene Datentypen gruppieren. Es gibt vier Arten von Atomvektoren:
- Numerischer Datentyp
- Ganzzahliger Datentyp
- Zeichendatentyp
- Logischer Datentyp
Sie können Vektoren mit der Funktion c() erstellen.
Zum Beispiel:
Wenn Sie den obigen Code ausführen, wird ein Vektor mit dem Namen "thisVector" erstellt, der alle Zahlen von 1 bis 30 enthält.
Um Zeichenwerte in einem Vektor zu speichern, müssen Sie als solche doppelte Anführungszeichen verwenden:
Obwohl Sie verschiedene Datentypen in einem Vektor speichern können, wird davon abgeraten, da alle Werte in einen Zeichentyp konvertiert werden.
- Listen
Wie oben erwähnt, können Listen jede Art von Datenelementen enthalten – Zeichenfolgen, Zahlen, Vektoren und sogar eine andere Liste. Sie können beispielsweise eine Liste mit 80 Zahlen, 30 Wörtern und 42 Vektoren erstellen. Die zu verwendende Funktion ist eine list().
Beispiel:
Ausgabe:
Da Listen auch andere Listen haben können, werden sie manchmal als rekursive Vektoren bezeichnet . Aus diesem Grund unterscheiden sie sich stark von Atomvektoren.
- Faktoren
Einfach ausgedrückt ist ein Faktor eine Art Vektor, in dem nur vordefinierte Werte gespeichert werden können. Es wird hauptsächlich verwendet, um kategoriale Daten zu speichern. Sie kategorisieren Spaltenwerte wie „Männlich“, „Weiblich“, „WAHR“, „FALSCH“ usw.
Faktoren sind heterogen in dem Sinne, dass sowohl Zeichenketten als auch ganze Zahlen in ihnen gespeichert werden können. Verwenden Sie zum Erstellen von Faktoren die Funktion factor(). Sie sind sehr nützlich, wenn es viele mögliche Werte für eine bestimmte Variable gibt und Sie alle kennen.
Bei der R-Programmierung werden Zeichenvektoren automatisch in Vektoren umgewandelt. Sie können stringsAsFactors = FALSE verwenden, um dies zu unterdrücken und dann jeden Zeichenvektor manuell in Faktoren umwandeln.

- Datenrahmen
Diese Datenstruktur in R wird verwendet, um Daten in tabellarischer Form darzustellen, um die Datenanalyse zu erleichtern. Es enthält gleichlange Vektoren und bildet so eine zweidimensionale Struktur. Es gibt Spalten, die Werte einer Variablen enthalten, und Zeilen, die eine Reihe von Werten jeder Spalte enthalten.
Natürlich können Datenrahmen Werte unterschiedlicher Datentypen speichern. Jede Spalte muss jedoch die gleiche Anzahl von Elementen haben. Wenn beispielsweise Spalte 1 5 Elemente enthält, sollte Spalte 2 auch 5 Werte enthalten.
Datenrahmen haben einige Besonderheiten:
- Es dürfen keine Spaltennamen leer bleiben.
- Der Name jeder Zeile muss eindeutig sein.
- Sie können numerische, Faktor- oder Zeichentypdaten in einem Datenrahmen speichern.
- Alle Spalten müssen die gleiche Anzahl von Datenelementen enthalten.
Alle Datensätze, die in R importiert werden, werden automatisch als Datenrahmen gespeichert.
- Matrizen
Die Matrix-Datenstruktur in R steht irgendwo zwischen Vektoren und Datenrahmen. Matrizen sind zweidimensionale Datensätze, die nur Elemente desselben Datentyps enthalten können. Mit der Funktion Matrix () können Sie eine Matrix erstellen.
Syntax : matrix(data, nrow, ncol, byrow, dimnames)
Hier,
data = Eingabeelemente als Vektor
nrow = Anzahl der Zeilen
ncol = Anzahl der Spalten
byrow = reihenweise Anordnung
dimnames = Namen von Spalten/Zeilen
Beispiel:
Ausgabe:
Auch wenn Faktoren wie Zeichenvektoren aussehen und sich verhalten, sind sie tatsächlich ganze Zahlen. Um Faktoren in Stiche umzuwandeln, verwenden Sie Funktionen wie gsub() und grepl(). Die Verwendung von nchar() führt zu einem Fehler.
- Arrays
Arrays sind mehrdimensionale Matrizen. Eine Matrix ist ein Sonderfall von Arrays, da sie zwei Dimensionen hat. Während Matrizen häufig verwendet werden, sind Arrays sehr selten.
Die Funktion zum Erstellen eines Arrays ist ein array().
Zu testen, ob ein Objekt eine Matrix oder ein Array ist, ist ziemlich einfach. Verwenden Sie einfach die Funktion is.matrix() oder is.array().
Übungen
Hier sind einige Fragen, die Sie beantworten können, nachdem Sie sich ausreichend Wissen über die Datenstrukturen in R angeeignet haben.
- Was sind die Attribute von Datenrahmen?
- Können Datenrahmen 0 Zeilen oder Spalten enthalten?
- Was sind die verschiedenen Arten von Atomvektoren in R?
- Was ist der Unterschied zwischen Atomvektoren und Listen?
- Erstellen Sie eine 4X3-Matrix in R.
Senden Sie uns Ihre Antworten per E-Mail oder schreiben Sie sie unten in die Kommentare!

Fazit
Um die Sprache R angemessen zu nutzen, ist ein gutes Verständnis von Datentypen, Datenstrukturen und ihrer Funktionsweise von Bedeutung. Diese Elemente sind die Prämisse aller Aktivitäten in R. Ein typisches Problem, auf das die meisten Programmierer stoßen, sind beispielsweise Objekttransformationen, die mit guten Kenntnissen über R-Objekte beseitigt werden können. Es ist unbedingt zu beachten, dass in R alles ein Objekt ist und Operationen als Funktionsaufrufe ablaufen.
Datenstrukturen in R können auf zwei verschiedene Arten aussortiert werden. Das Hauptverfahren zum Aussortieren von Datenstrukturen ist nach ihrer Dimensionalität, die 1-, 2- oder n-Dimensionalität sein kann, und der anschließende Weg ist nach ihrer Natur von Elementen, die homogen oder heterogen sein können. Alle Elemente in einer homogenen Struktur müssen von ähnlicher Art sein, während in einer heterogenen Struktur Elemente verschiedener Art zulässig sind.
Nachdem Sie die Grundlagen von Datenstrukturen in R erlernt haben, wird Ihnen das Programmieren in R viel leichter fallen. Datenstrukturen sind die Grundlagen von R. Die sechs am häufigsten verwendeten Datenstrukturen sind oben erwähnt. Es ist wichtig, sich an die unterschiedlichen Merkmale jedes Typs zu erinnern und ihn zu implementieren, um Daten zu analysieren und seine Operationen auszuführen.
Wenn Sie mehr über Big Data erfahren möchten, schauen Sie sich unser PG Diploma in Software Development Specialization in Big Data-Programm an, das für Berufstätige konzipiert ist und mehr als 7 Fallstudien und Projekte bietet, 14 Programmiersprachen und Tools abdeckt und praktische praktische Übungen enthält Workshops, mehr als 400 Stunden gründliches Lernen und Unterstützung bei der Stellenvermittlung bei Top-Unternehmen.
Lernen Sie Softwareentwicklungskurse online von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.