R Spickzettel: Den, den Sie griffbereit halten sollten

Veröffentlicht: 2020-05-29

Inhaltsverzeichnis

Einführung

Der Status der Programmiersprache R hat sich von einer reinen Programmiersprache für statistische Analysen zu einem leistungsfähigeren Allround-Tool entwickelt. Auch die Nutzerbasis von R ist in den letzten Jahren gewachsen. Es wird jetzt von einer Vielzahl von Programmierern, Wissenschaftlern und Praktikern eingesetzt. Um das Beste aus jeder Programmiersprache herauszuholen, ist es unerlässlich zu lernen, wie man Hilfe bekommt, da Fehler vorprogrammiert sind.

Neben der Kenntnis der Syntax ist also das Wissen darüber, wie man auf die R-Hilfedateien zugreift und Hilfe aus anderen Quellen findet, entscheidend für den Erfolg als R-Programmierer. Hier wird sich der R-Spickzettel als nützlich erweisen. Der R-Spickzettel enthält alle wichtigen Funktionen zusammen mit seinen Aufrufen für eine einfache Referenz der Programmierer.

Weitere Informationen: R-Tutorial für Anfänger: Werden Sie Experte für die R-Programmierung

Hilfe zur Programmiersprache R bekommen

Selbst die besten Bücher, um Menschen vorzustellen und ihnen den Einstieg in die Welt der Programmierung in R zu erleichtern, reichen allein nicht aus. Manchmal muss man lernen und auf die R-Hilfedateien zugreifen. Diese Hilfedatei, über die wir immer wieder sprechen, bietet dem Benutzer detaillierte Informationen zur Verwendung verschiedener Abhängigkeiten in R. Wie man eine bestimmte Funktion verwendet, denn jede eingebaute Funktion ist in diese Hilfedateien eingebrannt. Die Codebeispiele zur Verwendung der spezifischen Funktion finden Sie auch auf jeder dieser verschiedenen Hilfeseiten.

Wenn Sie auf die R-Hilfedateien zugreifen möchten, um Hilfe zur Verwendung einer bestimmten Funktion zu erhalten, müssen Sie eine der unten aufgeführten Funktionen verwenden:

1. ?: Die Verwendung eines einzelnen Fragezeichens zeigt die Hilfedateien an, die zu jeder Funktion gehören, zu der der Benutzer Hilfe erhalten möchte. Beispielsweise würde „?data.frame“ die Seite in den R-Hilfedateien anzeigen, die die Dokumentation zur Verwendung der Funktion data.frame() enthalten.

2. ??: Wenn Sie in den R-Hilfedateien nach einem bestimmten Teilstring suchen möchten, wird „??“ angezeigt. wird die Arbeit für Sie erledigen. Wenn Sie also die Namen einer Funktion wissen wollen, die das Wort „list“ enthält, müssen Sie nur „??list“ ausführen und Ihr Problem wäre gelöst

3. RSiteSearch(): Diese Funktion RSiteSearch() macht im Wesentlichen das, wonach sie benannt ist. Es führt im Wesentlichen eine Online-Suche nach der Abfrage durch, die als Parameter für diese Funktion übergeben wird. RSiteSearch („lineare Modelle“) kompiliert also die Suche auf der Website „RSiteSearch“ nach der Zeichenfolge „lineare Modelle“.

Wenn Sie Schwierigkeiten haben, Hilfe für R zu erhalten, und die integrierten Dokumentationen nicht gut zu Ihnen passen, gibt es viele Zusatzpakete, die Sie installieren können, um die gesamte Hilfe zu erhalten, die Sie für R benötigen. Pakete wie „sos“ sind zum Download zur Verfügung, die von CRAN angeboten wird. Dieses R-Paket enthält einige klare und prägnante Funktionen, die die Suche nach allen Arten von Abfragen durch alle auf der Website „RSiteSearch“ verfügbaren Hilfedateien ermöglichen.

Die Installation des Pakets ist auch ziemlich einfach. Alles, was Sie tun müssen, ist den Code install.packages(“sos“) in der R-Konsole auszuführen, dann müssen Sie nur noch das Paket laden. Das Laden des Pakets kann durch die Verwendung der Bibliothek („sos“) erfolgen.

Mit der Installation des „sos“-Pakets haben Sie nun Zugriff auf die Funktion namens findFn(). Diese findFn()-Funktion übernimmt den Suchparameter als Argument und gibt dann die Liste mit Hunderten von Webseiten zurück, die das übergebene Argument enthalten. Wenn Sie also beispielsweise die Funktion findFn („Regression“) in Ihrer R-Konsole ausführen, werden Sie mit einer Webseite konfrontiert, die viele Informationen enthält.

Die Informationen enthalten Links zu vielen Funktionen, die das Wort Regression im Namen haben, oder selbst wenn sie den Ausdruck Regression in ihrem Hilfetext haben, finden Sie auch einen Verweis darauf, wenn Sie die Funktion findFn() verwenden.

Lesen Sie: 6 interessante R-Projektideen für Anfänger

So importieren Sie Daten in R

Die folgende Tabelle ist praktisch, da sie einige Funktionen enthält, die sehr praktisch sind, wenn Sie Daten in R importieren möchten:

Funktion	Was es macht	Beispiel
read.table()	Diese Funktion ist für das Lesen der Daten verantwortlich, deren Spalten nicht miteinander verbunden sind. Normalerweise wird diese Funktion verwendet, wenn die Spalten der Daten, die Sie lesen möchten, durch ein Komma oder einen Tabulator getrennt sind. Beachten Sie, dass Sie das Trennzeichen selbst zusammen mit einigen anderen Argumenten angeben können, die die Daten, die R lesen soll, genau beschreiben.	read.table(file= „ myfile“, sep= „ t“, Kopfzeile = FALSE)
lesen.csv()	Diese Funktion ist grob gesagt eine sehr abgeschwächte oder verwässerte Version der Methode read.table(). Diese Funktion wurde hartcodiert, um die Daten aus jeder CSV-Datei zu lesen, die als Argument an diese Funktion übergeben wird. CSV-Dateien sind in der Regel Tabellenkalkulationen und MS-Excel-Dokumente.	read.csv(file= „ meinedatei“)
read.csv2()	Diese Funktion ist im Wesentlichen eine read.csv()-Funktion mit geringfügigen Änderungen. Die Read.csv2()-Funktion hat eine Voreinstellung, bei der das Trennzeichen der Daten ein Semikolon ist und das Komma als Gleit- oder Dezimalpunkt dient.	read.csv2(file= „ meinedatei“, Kopfzeile = FALSE)
read.delim()	Diese Funktion wird verwendet, wenn das Hauptmotiv darin besteht, die Dateien zu lesen, die mit Trennzeichen versehen wurden. Das hier verwendete Standardtrennzeichen ist Tabulator.	read.delim(file= „ meinedatei“, Kopfzeile = WAHR)
Scan()	Diese Funktion gibt Ihnen eine feinere und viel genauere Kontrolle über die Daten, die Sie von R lesen möchten, wenn die betreffenden Daten nicht tabellarisch sind.	scan("meinedatei",skip=1, nmax=10)
readLines()	Diese Funktion wird verwendet, wenn das Lesen einer Zeile nach der anderen aus einer Textdatei die erforderliche Aufgabe ist, die das Programm ausführen soll.	readLines("meinedatei")
lesen.fwf	Wenn die Daten, die Sie haben, Datumsangaben im Format mit fester Breite enthalten, sollten Sie diese Funktion verwenden, da sie die Datumsangaben im Format mit fester Breite liest. Einfacher gesagt, wenn die Daten, die Sie haben, eine feste Anzahl von Zeichen in jeder Spalte haben, dann sollte diese Funktion verwendet werden.	read.fwf("meinedatei", Breiten=c(1,2,3)

Die Vielzahl der Funktionen, auf die Sie nach dem Ausführen dieser Codezeile Zugriff erhalten, und der Zweck, dem sie dienen, sind unten aufgeführt:

Funktion	Was es macht	Beispiel
read.spss	Diese Funktion übernimmt als Argument den Namen einer SPSS-Datei und liest ihn in das R-Programm ein.	read.spss("meinedatei")
read.dta	Diese Funktion übernimmt die Eingabe des Dateinamens im Stata-Binärformat und liest ihn in das R-Programm ein.	read.dta(“meinedatei”)
lesen.xport	Diese Funktion nimmt das Argument des Namens einer SAS-Exportdatei und liest die Datei in das R-Programm ein.	read.export(“meinedatei”)

Quelle

Lesen Sie auch: Warum R lernen? Die 8 wichtigsten Gründe, R zu lernen

Verschiedene Datentypen und die grundlegende Manipulation der Tabellen

1. Grundsätzlich gibt es drei Datentypen, die beim Programmieren in R von großer Bedeutung sind. Diese drei Typen sind nämlich: Numerisch, Zeichen und Faktor. Sie können schnell suchen, um welche Art von Datentyp es sich handelt, oder Sie können auch eine Typumwandlung durchführen, indem Sie die folgenden beiden Befehle verwenden: is.factor() bzw. as.factor().

2. Wenn Sie zufällig eine Tabelle importieren, deren Variablen einen oder mehr als einen Eintrag enthalten, bei denen es sich um Zeichen handelt, wandelt R die Tabelle automatisch in den Datentyp des Faktors um. Davon abgesehen können Sie die Daten jedoch immer noch in numerische Werte umwandeln, indem Sie R erzwingen, indem Sie den Befehl = as.numeric(as.character(dat1$VAR1)) verwenden.

3. Die Befehlsnamen (dat1)=c(„ID“, „X“, „Y“, „Z“) benennen die Variable in Ihrem Datensatz tatsächlich um. Sie müssen bedenken, dass die Vektorlänge der Anzahl der Variablen entsprechen sollte, die Sie haben. andernfalls tritt ein Fehler auf.

4. Der Befehl fix (dat2) öffnet die gesamten Daten, die Sie haben, in einem Tabellenkalkulationsdokument, in dem Sie die Zellen mit einem einfachen Doppelklick in die Zellen bearbeiten können.

5. Wenn die Daten, die Sie haben, nur numerische Werte in der Tabelle enthalten, können Sie die Transposition der Tabelle übernehmen. Verwenden Sie dat2 = t(dat1), und die als dat2 bezeichnete Tabelle enthält die Transponierung (alle Zeilen werden in Spalten umgewandelt) der in dat1 enthaltenen Datentabelle.

Tipps zum Erstellen von Zufallsdaten und zum Durchführen von Zufallsstichproben

1. Die Funktion rnorm(10) übernimmt das Argument von 10 und erstellt zehn Zufallsstichproben. Diese Zufallsstichproben werden aus einer Normalverteilung generiert, die einen Mittelwert von Null hat, und die Standardabweichung des Datensatzes ist zufällig 1.

2. Die Funktion runif(10) nimmt zehn verschiedene Zufallsstichproben, um eine gleichmäßige Verteilung zu erzeugen, deren Wert zwischen null und eins liegt.

3. Die Funktion round(rnorm(10)*3+15) nimmt zehn Stichproben, die zufällig aus einer Normalverteilung stammen, deren Mittelwert 15 ist, und die Standardabweichung, die sie hat, ist 3 und die darin enthaltenen Gleitkommazahlen Daten werden mit Hilfe der Rundungsfunktion entfernt.

4. Die Funktion round(runif(10)*5+15) gibt dem Benutzer zufällige ganze Zahlen zurück, die den Wert zwischen den Werten 15 und 20 haben. Die Verteilung dieser Werte wird gleichmäßig sein.

5. Die Funktion sample(c(„A“, „B“, „C“), 10, replace=TRUE) tastet ab und erstellt eine zufällige Stichprobe aus jedem Vektor, der als Argument an diese Funktion übergeben wurde.

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Tipps zum Transformieren von Daten, die sich in der Datentabelle befinden

1. Der Funktionsaufruf der Transformationsfunktion erfolgt so dat2=transform(dat1, VAR1=VAR1*0.4), multipliziert die in VAR1 gespeicherten Werte mit 0,4 und weist dann den multiplizierten Wert wieder VAR1 zu.

2. Der Aufruf der Funktion transform kann auch verwendet werden, um Variablen mit bestimmten Abhängigkeiten zu bestehenden Variablen zu erstellen. Wenn Sie die Funktion wie folgt aufrufen: dat2=transform(dat1, VAR2=VAR1*2), erstellt sie eine neue Variable mit dem Namen VAR2, die den Wert von VAR1 multipliziert mit dem Faktor zwei enthält.

3. Sie können auch die Transformationsfunktion aufrufen, um die Werte an jeder gewünschten Site zu ändern. Um diese Aufgabe auszuführen, müssen Sie die Funktion wie dat2=transform(dat1, VAR1=ifelse(VAR3== „Site 1“, VAR1*0.4, VAR1)) aufrufen. Der oben erwähnte Aufruf der Transformationsfunktion multipliziert die in VAR1 gespeicherten Daten für die Dateneinträge, die die als Standort 1 bekannte Stelle sind. Der Wert der Variablen VAR1 bleibt überall gleich.

Lesen Sie: 8 erstaunliche Data Science-Projekte in R für Anfänger

Fazit

Die Programmierwelt hat in den letzten Jahren einen Boom an Sprachen erlebt. Diese Programmiersprachen zielen darauf ab, ihre Aufmerksamkeit auf einen Aspekt des Rechnens zu lenken und auszulöschen. Sprachen wie R haben einen robusten statistischen und datenwissenschaftlichen Ansatz, hauptsächlich aufgrund der eingebauten Funktionen, die diese Sprache besitzt.

Während Sie in einer beliebigen Programmiersprache arbeiten, ist es keine leichte Aufgabe, jeden Befehl auf Knopfdruck zu haben. Hier kommt nun der R-Spickzettel zur Rettung. Eine Sache, an die Sie sich immer erinnern sollten, ist, dass der beste R-Spickzettel derjenige ist, den Sie erstellen.

Was bedeutet C in der Programmiersprache R?

Die C-Funktion steht in der Programmiersprache R für „Combine“. Diese Funktion wird verwendet, um die Ausgabe zu erhalten, indem Parameter in der Funktion übergeben werden. Sie können Daten auf drei verschiedene Arten mit der Verwendung von C in R extrahieren: mit dem c(row)-Befehl zum Extrahieren von Zeilen, dem c(column)-Befehl zum Extrahieren von Spalten und dem c(row, column)-Befehl zum Extrahieren beider Spalten und Reihen.

Hier müssen Sie den Wert von Zeilen und Spalten in der Funktion aus dem von Ihnen verwendeten Datensatz angeben. Die Funktion gibt als Antwort auf diesen Befehl einen Vektor zurück. Ansonsten können Sie die Funktion c() verwenden, um zwei verschiedene Vektoren zu kombinieren.

Was sind R-Funktionen?

Funktionen sind eigenständige Codemodule, die zum Ausführen einer bestimmten Aufgabe verwendet werden. Normalerweise nehmen Funktionen eine bestimmte Datenstruktur wie Wert, Datenrahmen, Vektor oder irgendetwas anderes auf und verarbeiten sie, um ein Ergebnis zurückzugeben. In diesen Funktionen werden in Klammern Argumente zur Spezifizierung der Anforderungen übergeben.

Es gibt zwei Arten von Funktionen, die in R verwendet werden: einfach und benutzerdefiniert. Die Grundfunktionen sind diejenigen, die bereits in der Programmiersprache R vorhanden sind. Sie können auf diese Funktionen aus verschiedenen Paketen oder Bibliotheken zugreifen, die in R verfügbar sind. Jede Funktion wird für einen anderen Zweck und zum Ausführen einer bestimmten Aufgabe verwendet. Einige der Grundfunktionen in R sind sqrt(), round(), getwd() usw. Da es nicht möglich ist, jede Aktion mit Hilfe von Grundfunktionen abzuschließen, müssen Sie die Hilfe der benutzerdefinierten Funktionen in Anspruch nehmen indem Sie Ihren eigenen Code schreiben, um bestimmte benutzerdefinierte Aufgaben auszuführen. Diese Funktionen werden entwickelt, wenn Sie bestimmte Aktionen mehrmals ausführen müssen. Eine Funktion kann Ihnen dies erleichtern.

Was sind einige der Hauptmerkmale der Programmiersprache R?

Es gibt viele Möglichkeiten, wie R Datenanalysten und Datenwissenschaftlern helfen kann. Einige seiner Hauptmerkmale helfen ihm, sich von der allgemeinen Masse der Statistiksprachen abzuheben. Die Hauptmerkmale sind starke grafische Fähigkeiten, die Fähigkeit, komplexe statistische Berechnungen durchzuführen, Code ohne die Notwendigkeit eines Compilers auszuführen, Datenverarbeitung, Datenverarbeitungs- und Speicherkapazitäten und die Fähigkeit, Berichte in den gewünschten Formaten zu erstellen.