Datenmanipulation in R: Was ist, Variablen, Verwendung des dplyr-Pakets

Veröffentlicht: 2020-03-26

Inhaltsverzeichnis

Einführung

Neben Personal und Infrastruktur sind Daten der neue Baustein eines jeden Unternehmens. Von großen Unternehmen bis hin zu kleinen Industrien sind Daten der Treibstoff, der ihre Geschäfte antreibt. Diese Daten werden mit ihren täglichen Geschäftstransaktionen, Kundenkaufdaten, Verkaufsdaten, Finanzdiagrammen, Geschäftsstatistiken, Marketingkampagnen und vielem mehr in Verbindung gebracht. Aus diesem Grund sagte Tim O'Reilly, Gründer von O'Reilly Media, dass wir in eine Situation eintreten, in der Daten wichtiger werden als Software.

Aber was tun mit so vielen Daten? Unternehmen nutzen diese Daten, um wertvolle Erkenntnisse über ihre Geschäftsentwicklung abzuleiten. Sie stellen Data Scientists ein, die Daten in R manipulieren , um aus diesen Daten einen Sinn zu machen. Wenn sie beispielsweise die Verkaufs- und Marketingdaten des vergangenen Jahres verstehen, erhalten sie eine Vorstellung davon, wo sie stehen. Eine kürzlich durchgeführte Studie hat gezeigt, dass der Markt für Datenanalyse bis 2023 voraussichtlich 77,6 Milliarden US-Dollar wert sein wird.

Data Scientists werden beauftragt, diese Daten durch einen Prozess namens Datenmanipulation sinnvoll zu nutzen.

Was ist Datenmanipulation?

Datenmanipulation ist der Prozess, Daten zu organisieren, um sie besser lesen und verstehen zu können. Beispielsweise können Unternehmensvertreter Kundendaten aus ihren Systemen und Logbüchern erhalten. Meistens werden diese Daten in CRM-Software (Customer Relationship Management) und Excel-Tabellen gespeichert. Aber es kann sein, dass es nicht richtig organisiert ist. Die Datenmanipulation umfasst Möglichkeiten, all diese Daten zu organisieren, beispielsweise in alphabetischer Reihenfolge.

Die Daten können nach Datum, Uhrzeit, Seriennummer oder einem beliebigen anderen Feld sortiert werden. Personen in der Buchhaltung eines Unternehmens verwenden die Daten, um Verkaufstrends, Benutzerpräferenzen, Marktstatistiken und Produktpreise zu ermitteln. Finanzanalysten verwenden Daten, um zu verstehen, wie sich der Aktienmarkt entwickelt, Trends und die besten Aktien, in die sie investieren sollten.

Darüber hinaus können Webserverdaten verwendet werden, um zu verstehen, wie viel Verkehr die Website hat. In diesem technologischen Zeitalter ist das IoT ein Beispiel für eine Technologie, bei der Daten von Sensoren stammen, die an Maschinen angebracht sind. Diese Daten werden verwendet, um die Leistung der Maschine zu bestimmen und festzustellen, ob sie Mängel aufweist. Datenmanipulation ist im IoT von entscheidender Bedeutung, da der Markt bis 2025 einen Wert von 81,67 Milliarden US-Dollar haben wird.

Die Datenmanipulation wird im Allgemeinen mit einer Programmiersprache namens R durchgeführt. Lassen Sie uns die Sprache ein wenig besser kennen.

Was ist R?

Um die Datenmanipulation in R zu verstehen , müssen Sie die Grundlagen von R kennen. Es ist eine moderne Programmiersprache, die für Datenanalyse, statistische Berechnungen und künstliche Intelligenz verwendet wird. Die Sprache wurde 1993 von Ross Ihaka und Robert Gentleman entwickelt . Heutzutage verwenden Forscher, Datenanalysten, Wissenschaftler und Statistiker R, um Daten zu analysieren, zu bereinigen und zu visualisieren.

R verfügt über einen riesigen Katalog aus grafischen und statistischen Methoden, die maschinelles Lernen, lineare Regression, statistische Inferenz und Zeitreihen unterstützen können. Unter der GNU General Public License ist die Sprache für Betriebssysteme wie Windows, Mac und Linux frei verfügbar. Es ist plattformfreundlich, was bedeutet, dass R-Code, der auf einer Plattform geschrieben wurde, problemlos auf einer anderen ausgeführt werden kann.

R gilt heute als die wichtigste Programmiersprache für Data Science. Aber es ist eine umfassende Sprache, da Sie sie sowohl für die Softwareentwicklung als auch für komplizierte Aufgaben wie die statistische Modellierung verwenden können. Sie können Webanwendungen mit dem Paket RShiny entwickeln.

Es ist eine so mächtige Sprache, dass einige der weltbesten Unternehmen wie Google und Facebook sie verwenden.

Sehen wir uns einige der wichtigsten Funktionen von R an:

  • Es verfügt über CRAN (Comprehensive R Archive Network) , ein Repository mit mehr als 10.000 R-Paketen und allen erforderlichen Funktionen für die Arbeit mit Daten
  • Es ist eine Open-Source-Programmiersprache . Das bedeutet, dass Sie es kostenlos herunterladen und sogar zu seiner Entwicklung beitragen, seine Funktionen aktualisieren und seine bestehenden Funktionen anpassen können
  • Sie können hochwertige Visualisierungen aus den vorhandenen Daten der nützlichen grafischen Bibliotheken von R wie ggplot2 und plotly erstellen
  • R ist eine sehr schnelle Sprache. Da es sich um eine interpretierte Programmiersprache handelt, ist kein Compiler erforderlich, um die R-Programme in ausführbaren Code umzuwandeln, sodass ein R-Skript schneller ausgeführt wird
  • R kann im Handumdrehen eine Vielzahl komplizierter Berechnungen durchführen, die aus Arrays, Datenrahmen und Vektoren bestehen . Es gibt viele Operatoren zum Durchführen dieser Berechnungen
  • Es verarbeitet strukturierte und unstrukturierte Daten. Erweiterungen für Big Data und SQL sind für den Umgang mit allen Arten von Daten verfügbar
  • R hat eine stetig wachsende Community mit den klügsten Köpfen. Diese Leute tragen ständig zur Programmiersprache bei, indem sie r-Bibliotheken und -Updates entwickeln
  • Sie können R problemlos mit anderen Programmiersprachen wie Python, Java und C++ integrieren. Sie können es auch mit Hadoop für verteiltes Computing kombinieren

Nachdem Sie nun die Grundlagen der Programmiersprache R gesammelt haben, lassen Sie uns in die spannenden Dinge eintauchen!

Variablen in R

Während Sie in R programmieren oder Daten in R bearbeiten , müssen Sie sich mit Variablen befassen. Variablen werden zum Speichern von Daten verwendet, die in Form von Zeichenfolgen, Ganzzahlen, Gleitkommazahlen oder nur booleschen Werten vorliegen können. Diese Variablen reservieren einen Platz im Speicher für ihren Inhalt. Im Gegensatz zu herkömmlichen Programmiersprachen werden Variablen in R zusammen mit R-Objekten zugewiesen .

Die Variablen haben keinen Datentyp, sondern erhalten den Typ des R-Objekts, dem sie zugewiesen sind. Die beliebtesten R-Objekte sind:

  • Vektoren
  • Listen
  • Arrays
  • Matrizen
  • Faktoren
  • Datenrahmen

Diese Datenstrukturen sind extrem wichtig für die Datenmanipulation in R und die Datenanalyse. Schauen wir sie uns etwas genauer an, um die grundlegende Datenmanipulation zu verstehen:

Vektoren

Sie sind die grundlegendsten Datenstrukturen und werden für eindimensionale Daten verwendet. Die Arten von atomaren Vektoren sind:

  • Ganze Zahl
  • Logisch
  • Numerisch
  • Komplex
  • Charakter

Wenn Sie in R einen Wert erstellen, wird er zu einem Einzelelementvektor der Länge 1. Beispiel:

print("ABC"); # Einzelelementvektor vom Typ Zeichen

print(10.5) # Einzelelement-Vektor vom Double-Typ

Auf Elemente in Vektoren wird über ihre Indexnummern zugegriffen. Indexpositionen in Vektoren beginnen bei 1. Beispiel:

t <- c („Mo“, „Di“, „Mi“, „Sa“)

u <- t[c(1,2,3)]

drucken

Das Ergebnis ist „Mo“ „Di“ „Mi“

Listen

Dies sind Objekte in R, die verwendet werden, um verschiedene Arten von Elementen darin zu halten. Dies können ganze Zahlen, Strings und sogar Listen sein. Wenn die Daten nicht in einem Datenrahmen oder Array gespeichert werden können, ist dies die beste Option. Listen können auch eine Matrix enthalten. Sie können Listen mit der Methode list() erstellen.

Verwenden Sie den folgenden Code, um eine Liste zu erstellen:

list_data <- list("Schwarz", "Grün", c(11,4,14), TRUE, 31.22, 120.5)

print(list_data)

Auf Listenelemente kann über Listenindizes zugegriffen werden.

print(list_data[1]) #der Code gibt das erste Element der Liste aus

Beispiel für Datenmanipulation mit Listen:

list_data[4] <- NULL # Dieser Code entfernt das letzte Element der Liste, wenn sie 4 Elemente hat

Lesen Sie: R vs. Python für Data Science

Arrays

Arrays sind Objekte, die zum Speichern nur eines einzigen Datentyps verwendet werden können. Daten mit mehr als zwei Dimensionen können in Arrays gespeichert werden. Dazu müssen Sie die Funktion array() verwenden, die die Vektoren als Eingabe verwendet. Es verwendet den Wert im dim-Parameter zum Erstellen des Arrays.

Sehen Sie sich zum Beispiel den folgenden Code an:

vector_result <- array(c(vectorA,vectorB),dim = c(3,3,2))

print(vector_result)

Matrizen

In diesen R-Objekten sind die Elemente in einem zweidimensionalen Layout organisiert. Matrizen enthalten Elemente ähnlicher Atomarten. Diese sind vorteilhaft, wenn die Elemente zu einer einzigen Klasse gehören. Matrizen mit numerischen Elementen werden für mathematische Berechnungen erstellt. Sie können Matrizen mit der Funktion matrix() erstellen.

Die grundlegende Syntax zum Erstellen einer Matrix ist unten angegeben:

matrix(data, nrow, ncol, byrow, dimnames)

  • Daten – Dies ist der Eingabevektor, der zum Datenelement für die Matrix wird
  • Nrow – Dies ist die Anzahl der Zeilen, die Sie erstellen möchten
  • Ncol – Dies ist die Anzahl der Spalten, die Sie erstellen möchten
  • Byrow – Das ist ein logischer Hinweis. Wenn der Wert TRUE ist, werden die Vektorelemente zeilenweise angeordnet
  • Dimname – Namen, die den Spalten und Zeilen gegeben wurden

Faktoren

Diese R-Objekte werden verwendet, um Daten zu kategorisieren und als Ebenen zu speichern. Sie eignen sich gut für die statistische Modellierung und Datenanalyse. Sowohl ganze Zahlen als auch Zeichenketten können in Faktoren gespeichert werden. Sie können die Funktion factor() zum Erstellen eines Faktors verwenden, indem Sie einen Vektor als Eingabe für die Methode bereitstellen.

Datenrahmen

Es hat eine zweidimensionale Struktur wie ein Array mit Zeilen und Spalten. Hier hat jede Zeile einen Satz von Werten, die zu jeder Spalte gehören. Die Spalten enthalten den Wert einer Variablen. Sie werden zur Darstellung von Daten aus Tabellenkalkulationen verwendet. Diese können zum Speichern von Faktor-, Zahlen- oder Zeichendaten verwendet werden.

Ein Datenrahmen hat die folgenden Merkmale:

  • Zeilennamen müssen eindeutig sein
  • Spaltennamen dürfen nicht leer sein
  • Die Anzahl der Datenelemente in jeder Spalte muss gleich sein

Datenmanipulation in R

Bei der Datenmanipulation in R besteht der erste Schritt darin, kleine Datenproben aus einem riesigen Datensatz zu erstellen. Dies geschieht, da nicht der gesamte Datensatz auf einmal analysiert werden kann. Normalerweise erstellen Datenanalysten eine repräsentative Teilmenge des Datensatzes. Dies hilft ihnen, die Trends und Muster im größeren Datensatz zu erkennen. Dieser Sampling-Vorgang wird auch Subsetting genannt .

Die verschiedenen Möglichkeiten zum Erstellen einer Teilmenge in R sind wie folgt:

  • $ – Dies wählt ein einzelnes Datenelement aus und sein Ergebnis ist immer ein Vektor
  • [[ – Dieser Subsetting-Operator gibt ebenfalls ein einzelnes Element zurück, aber Sie können auf die Elemente anhand ihrer Position verweisen

  • [ – Dieser Operator wird verwendet, um mehrere Datenelemente zurückzugeben

Einige der grundlegenden Funktionen für die Datenmanipulation in R sind:

sample()-Funktion

Wie der Name schon sagt, wird die Methode sample() zum Erstellen von Datenstichproben aus einem größeren Datensatz verwendet. Zusammen mit diesem Befehl geben Sie die Anzahl der Proben an, die Sie aus dem Datensatz oder einem Vektor ziehen möchten. Die grundlegende Syntax lautet wie folgt:

sample(x, size, replace = FALSE, prob = NULL)

x – Dies kann ein Vektor oder ein Datensatz mit mehreren Elementen sein, aus denen die Stichprobe ausgewählt werden muss

size – Dies ist eine positive Ganzzahl, die die Anzahl der auszuwählenden Elemente angibt

replace – Dies kann True oder False sein, unabhängig davon, ob Sie das Sampling mit oder ohne Ersetzung wünschen

prob – Es ist ein Argument, das verwendet wird, um einen Vektor von Gewichten bereitzustellen, um die Elemente des abgetasteten Vektors zu erhalten

Table()-Funktion

Diese Funktion erstellt eine Häufigkeitstabelle, die zur Berechnung der Anzahl eindeutiger Werte einer bestimmten Variablen verwendet wird. Lassen Sie uns zum Beispiel eine Häufigkeitstabelle mit dem Iris-Datensatz erstellen:

Tabelle(Iris$Spezies)

Der oben geschriebene Code erstellt eine Tabelle, die die Arten von Arten im Iris-Datensatz darstellt.

dupliziert ()

Die Methode „Duplicated()“ wird verwendet, um doppelte Werte aus einem Datensatz zu identifizieren und zu entfernen. Es nimmt einen Vektor oder Datenrahmen als Argument und gibt True für die Elemente zurück, die Duplikate sind. Zum Beispiel,

dupliziert (c(1,1,3))

Dadurch wird überprüft, welche dieser Elemente Duplikate sind, und True oder False zurückgegeben.

Lesen Sie auch : Entscheidungsbaum in R

Datenmanipulation in R mit dem Paket dplyr

R bietet ein einfaches und benutzerfreundliches Paket namens dplyr für die Datenmanipulation. Das Paket verfügt über einige integrierte Methoden zur Manipulation, Datenexploration und -transformation. Sehen wir uns einige der wichtigsten Funktionen dieses Pakets an:

auswählen()

Die Methode select() ist eine der Grundfunktionen für die Datenmanipulation in R . Diese Methode wird zum Auswählen von Spalten in R verwendet. Damit können Sie Daten anhand ihres Spaltennamens auswählen. Die Spalten können basierend auf bestimmten Bedingungen ausgewählt werden. Angenommen, wir möchten die 3. und 4. Spalte eines Datenrahmens namens myData auswählen, lautet der Code :

select(meineDaten,3:4)

Filter()

Diese Methode wird zum Filtern von Zeilen eines Datensatzes verwendet, die bestimmten Kriterien entsprechen. Es kann wie das select() funktionieren, Sie übergeben zuerst den Datenrahmen und dann eine Bedingung, die durch ein Komma getrennt ist.

Wenn Sie beispielsweise Spalten mit roten Autos in einem Datensatz herausfiltern möchten, müssen Sie Folgendes schreiben:

filter(autos, farbe==”Rot”)

Als Ergebnis werden die übereinstimmenden Zeilen angezeigt.

mutieren()

Sie können die Methode mutate() verwenden , um neue Spalten in einem Dataset zu erstellen, während die alten erhalten bleiben. Diese Spalten können durch Angabe einer Bedingung erstellt werden. Zum Beispiel,

mutate(mtcars, mtcars_new_col = mpg / cyl)

In diesem Befehl wird im mtcars-Datensatz eine neue Spalte mtcars_new_col erstellt , die die Werte der mpg-Spalte geteilt durch die cyl-Spalte enthält.

ordnen()

Dies wird zum Sortieren von Zeilen in aufsteigender oder absteigender Reihenfolge unter Verwendung einer oder mehrerer Variablen verwendet. Anstatt die Methode desc() anzuwenden, können Sie vor der Sortiervariablen ein Minuszeichen (-) hinzufügen. Dies zeigt die absteigende Sortierreihenfolge an. Zum Beispiel,

anordnen (my_dataset, -Sepal.Length)

gruppiere nach()

Die Methode group_by() wird zum Gruppieren von Beobachtungen in einem Datensatz nach einer oder mehreren Variablen verwendet.

zusammenfassen()

Die Funktion summarise() ist nützlich, um Datenerkenntnisse wie Mittelwert, Median und Modus zu ermitteln. Es wird zusammen mit gruppierten Daten verwendet, die von einer anderen Methode group_by erstellt wurden. summarise() hilft, mehrere Werte in einzelne zu reduzieren.

verschmelzen()

Die Methode merge() kombiniert oder führt Datensätze zusammen. Dies ist nützlich, um mehrere Eingabedatenquellen zusammenzufassen.

Die Methode bietet Ihnen 4 Möglichkeiten, Datensätze zusammenzuführen . Sie werden im Folgenden erwähnt:

  • Natürlicher Join Dies wird verwendet, um die Zeilen, die der angegebenen Bedingung entsprechen, innerhalb der Datenrahmen zu halten
  • Full Outer Join – Dies führt alle Zeilen aus beiden Datenrahmen zusammen und speichert sie
  • Left Outer Join – Dies speichert alle Zeilen eines Datenrahmens A und diejenigen in B, die übereinstimmen
  • Right Outer Join – Dies speichert alle Zeilen eines Datenrahmens B und diejenigen in A, die übereinstimmen

umbenennen_wenn()

Dies ist eine Funktion, die Sie zum Umbenennen von Spalten eines Datenrahmens verwenden können, wenn die angegebene Bedingung erfüllt ist.

benenne alles um()

Dies wird verwendet, um alle Spalten eines Datenrahmens umzubenennen, ohne eine Bedingung anzugeben.

Verdienen Sie Data-Science-Kurse an den besten Universitäten der Welt. Nehmen Sie an unseren Executive PG-Programmen, Advanced Certificate Programs oder Masters-Programmen teil, um Ihre Karriere zu beschleunigen.

Pfeifenbetreiber

Der Pipe-Operator ist in Paketen wie magrittr und dplyr verfügbar , um Ihren gesamten Code zu vereinfachen. Mit dem Operator können Sie mehrere Funktionen miteinander kombinieren. Gekennzeichnet durch das Symbol %>%, kann es mit gängigen Methoden wie summarise(), filter(), select() und group_by() während der Datenmanipulation in R verwendet werden.

Neben dplyr gibt es in CRAN viele weitere Pakete zur Datenmanipulation in R . Tatsächlich finden Sie mehr als 7000 Pakete, um Ihre Codierung und auch Ihre Fehler zu reduzieren. Viele dieser Pakete werden von erfahrenen Entwicklern erstellt, Sie sind also in sicheren Händen. Diese schließen ein:

  • Datentabelle
  • schmieren
  • ggplot2
  • Leser
  • umformen2
  • ordentlich

Fazit

Wenn Sie ein Anfänger in der Datenmanipulation in R sind, können Sie sich für die in R verfügbaren integrierten Basisfunktionen entscheiden. Dazu gehören Methoden wie with(), within(), duplicated(), cut(), table(), sample() und sort(). Aber sie sind zeitaufwändig und wiederholen sich. Es ist keine sehr effiziente Option.

Daher ist der beste Weg nach vorne, die große Anzahl von Paketen in CRAN wie dplyr zu verwenden. Diese sind super nützlich und machen Ihre Programme effizienter.

Welches Paket ist nützlich für die Datenmanipulation in R?

Der Prozess der Datenmanipulation wird verwendet, um die verfügbaren Daten zu modifizieren und sie leichter lesbar und übersichtlicher zu machen. Es gibt oft viele Fehler und Ungenauigkeiten bei den Maschinen, die Daten gesammelt haben. Durch Datenmanipulation können Sie diese Ungenauigkeiten beseitigen und genauere Daten bereitstellen.

Es gibt viele Möglichkeiten, Daten in R zu bearbeiten, z. B. die Verwendung von Paketen wie ggplot2, readr, dplyr usw. und die Verwendung von Basis-R-Funktionen wie within(), with() usw. Das dplyr-Paket wird jedoch als sehr angesehen nützlich für die Datenmanipulation in R. Dieses Paket besteht aus verschiedenen Funktionen, die speziell für die Datenmanipulation erstellt wurden, und ermöglicht eine schnellere Verarbeitung der Daten im Vergleich zu den anderen Methoden und Paketen.

Was ist der Zweck des dplyr-Pakets in R?

Das dplyr-Paket ist bekanntermaßen das beste für die Datenmanipulation in R mit maximaler Effizienz. Früher gab es dieses Paket namens plyr, das iteriert wurde, um dplyr zu bilden. Jetzt konzentriert sich dplyr vollständig auf die Datenrahmen. Aus diesem Grund ist es viel schneller, hat eine bessere und konsistentere API und ist auch ziemlich einfach zu bedienen.

Das dplyr-Paket holt das Beste aus den verfügbaren Daten mit verbesserter Leistung im Vergleich zu den anderen Datenbearbeitungspaketen in R.

Wie kann man Daten manipulieren?

Um eine Datenmanipulation durchzuführen, müssen Sie bestimmte Schritte in einer allgemeinen Reihenfolge ausführen. Befolgen Sie die folgenden Schritte:

1. Zunächst benötigen Sie eine Datenbank, die aus Datenquellen erstellt wurde.
2. Als Nächstes müssen Sie die verfügbaren Daten durch Datenmanipulation bereinigen, neu anordnen und neu strukturieren.
3. Jetzt müssen Sie eine Datenbank entwickeln, an der Sie arbeiten werden.
4. Hier können Sie die verfügbaren Informationen zusammenführen, löschen und ändern.
5. Analysieren Sie schließlich die verfügbaren Daten und generieren Sie nützliche Informationen daraus.