Pandas Cheatsheet: Die wichtigsten Befehle, die Sie kennen sollten [2022]

Veröffentlicht: 2021-01-06

Die Datenanalyse ist zu einem neuen Studiengenre geworden, und das alles dank Python. Wenn Sie ein begeisterter Datenanalyst sind, der fast ausschließlich mit Python arbeitet und die Pandas-Bibliothek verwendet, dann ist dieser Artikel genau das Richtige für Sie. Dieser Pandas-Cheatsheet wird alle wesentlichen Methoden durchgehen, die sich beim Analysieren von Daten als nützlich erweisen. Möglicherweise sind Sie auf Situationen gestoßen, in denen es schwierig ist, sich an die spezifische Syntax zu erinnern, um etwas in Pandas zu tun. Diese Pandas-Spickzettel- Befehle helfen Ihnen, sich die häufigsten Pandas-Operationen leicht zu merken und darauf zu verweisen. Wenn Sie ein Anfänger in Python und Data Science sind, können Ihnen die Data Science-Kurse von upGrad definitiv helfen, tiefer in die Welt der Daten und Analysen einzutauchen.

Inhaltsverzeichnis

Verwenden des Pandas-Cheatsheets
- 1. Importieren Sie Daten aus verschiedenen Dateien
- 2. Exportieren Sie DataFrames in verschiedenen Dateiformaten
- 3. Untersuchen Sie einen bestimmten Abschnitt Ihres DataFrame oder Ihrer Serie
- 4. Auswählen einer bestimmten Teilmenge Ihrer Daten
- 5. Datenreinigungsbefehle
- 6. Daten gruppieren, sortieren und filtern
- 7. Sonstiges
Fazit
- Was sind die herausragenden Merkmale der Pandas-Bibliotheken?
- Welche anderen Bibliotheken und Tools ergänzen die Pandas-Bibliothek?
- Geben Sie die grundlegenden Operationen des Datenrahmens an

Verwenden des Pandas-Cheatsheets

Bevor Sie diesen Pandas-Spickzettel verwenden , sollten Sie das Pandas-Tutorial gründlich lernen und sich dann auf diesen Spickzettel beziehen, um sich daran zu erinnern und ihn zu klären. Pandas Spickzettel hilft Ihnen, schnell nach Methoden zu suchen, die Sie bereits erlernt haben, und es kann sich als nützlich erweisen, selbst wenn Sie zu einer Prüfung oder einem Vorstellungsgespräch gehen. Wir haben alle häufig in den Pandas von einem Datenanalysten verwendeten Befehle zur einfachen Erkennung gesammelt und gruppiert. In diesem Pandas-Spickzettel verwenden wir die folgende Abkürzung zur Darstellung verschiedener Objekte.

df: Zur Darstellung eines beliebigen Pandas DataFrame-Objekts
ser: Zur Darstellung eines beliebigen Objekts der Pandas-Serie

Sie müssen diese folgenden relevanten Bibliotheken verwenden, um die unten in diesem Artikel erwähnten Methoden zu implementieren.

pandas als pd importieren
importiere numpy als np

Muss gelesen werden: Pandas-Interviewfragen

1. Importieren Sie Daten aus verschiedenen Dateien

So lesen Sie alle Daten aus einer CSV-Datei: pd.read_csv(file_name)
So lesen Sie alle Daten aus einer Textdatei mit Trennzeichen (wie TSV): pd.read_table(file_name)
So lesen Sie aus einer Excel-Tabelle: pd.read_excel(file_name)
So lesen Sie Daten aus einer SQL-Datenbank: pd.read_sql(query, connectionObject)
Abrufen der Daten aus einer JSON-formatierten Zeichenfolge oder URL: pd.read_json(jsonString)
So übernehmen Sie den Inhalt Ihrer Zwischenablage: pd.read_clipboard()

2. Exportieren Sie DataFrames in verschiedenen Dateiformaten

So schreiben Sie einen DataFrame in eine CSV-Datei: df.to_csv(file_name)
So schreiben Sie einen DataFrame in eine Excel-Datei: df.to_excel(file_name)
So schreiben Sie einen DataFrame in eine SQL-Tabelle: df.to_sql(tableName, connectionObject)
So schreiben Sie einen DataFrame in eine Datei im JSON-Format: df.to_json(file_name)

3. Untersuchen Sie einen bestimmten Abschnitt Ihres DataFrame oder Ihrer Serie

Um alle Informationen zu Index, Datentyp und Speicher abzurufen: df.info()
So extrahieren Sie die ersten 'n' Zeilen Ihres DataFrame: df.head(n)
So extrahieren Sie die letzten 'n' Zeilen Ihres DataFrame: df.tail(n)
So extrahieren Sie die Anzahl der in Ihrem DataFrame verfügbaren Zeilen und Spalten: df.shape
So fassen Sie die Statistiken für numerische Spalten zusammen: df.describe()
So zeigen Sie eindeutige Werte zusammen mit ihrer Anzahl an: ser.value_counts(dropna=False)

4. Auswählen einer bestimmten Teilmenge Ihrer Daten

Extrahieren Sie die erste Zeile: df.iloc[0,:]
So extrahieren Sie das erste Element der ersten Spalte Ihres DataFrame: df.iloc[0,0]
Um Spalten mit dem Label 'col' als Series zurückzugeben: df[col]
So geben Sie Spalten mit einem neuen DataFrame zurück: df[[col1,col2]]
So wählen Sie Daten nach Position aus: ser.iloc[0]
So wählen Sie Daten nach Index aus: ser.loc['index_one']

5. Datenreinigungsbefehle

Spalten massenweise umbenennen: df.rename(columns = lambda x: x + 1)
Spalten selektiv umbenennen: df.rename(columns = {'oldName': 'newName'})
Um den Index in Massen umzubenennen: df.rename(index = lambda x: x + 1)
Um Spalten der Reihe nach umzubenennen: df.columns = ['x', 'y', 'z']
Um zu überprüfen, ob Nullwerte vorhanden sind, wird ein entsprechendes boolesches Array zurückgegeben: pd.isnull()
Die Umkehrung von pd.isnull(): pd.notnull()
Löscht alle Zeilen, die Nullwerte enthalten: df.dropna()
Löscht alle Spalten, die Nullwerte enthalten: df.dropna(axis=1)
Um jeden Nullwert durch 'n' zu ersetzen: df.fillna(n)
Um alle Datentypen der Serie in Float umzuwandeln: ser.astype(float)
Um alle nummerierten 1 durch 'eins' und 3 durch 'drei' zu ersetzen: ser.replace([1,2], ['one','two'])

Lesen Sie auch: Pandas Dataframe Astype

6. Daten gruppieren, sortieren und filtern

So geben Sie ein Groupby-Objekt für Spaltenwerte zurück: df.groupby(colm)
Groupby-Objekt für mehrere Spaltenwerte zurückgeben: df.groupby([colm1, colm2])
So sortieren Sie Werte in aufsteigender Reihenfolge (nach Spalte): df.sort_values(colm1)
So sortieren Sie Werte in absteigender Reihenfolge (nach Spalte): df.sort_values(colm2, ascending=False)
Zeilen extrahieren, bei denen der Spaltenwert größer als 0,6 ist: df[df[Spalte] > 0,6]

7. Sonstiges

Fügen Sie die Zeilen des ersten DataFrame am Ende des zweiten DataFrame hinzu: df1.append(df2)
Fügen Sie die Spalten des ersten DataFrame am Ende des zweiten DataFrame hinzu: pd.concat([df1,df2],axis=1)
So geben Sie den Mittelwert aller Spalten zurück: df.mean()
So geben Sie die Anzahl der Nicht-Null-Werte zurück: df.count()

Fazit

Diese Pandas-Spickzettel sind nur für den schnellen Abruf nützlich. Es ist immer ein guter Ansatz, die Befehle zu üben, bevor Sie direkt in den Pandas-Spickzettel springen .

Wenn Sie neugierig sind, mehr über Pandas zu erfahren, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Was sind die herausragenden Merkmale der Pandas-Bibliotheken?

Die folgenden Features machen Pandas zu einer der beliebtesten Python-Bibliotheken: Pandas stellt uns verschiedene Datenrahmen zur Verfügung, die nicht nur eine effiziente Datendarstellung ermöglichen, sondern uns auch ermöglichen, sie zu manipulieren. Es bietet effiziente Ausrichtungs- und Indizierungsfunktionen, die intelligente Möglichkeiten zur Kennzeichnung und Organisation der Daten bieten. Einige Funktionen von Pandas machen den Code sauberer und erhöhen seine Lesbarkeit, wodurch er effizienter wird. Es kann auch mehrere Dateiformate lesen. JSON, CSV, HDF5 und Excel sind einige der von Pandas unterstützten Dateiformate. Das Zusammenführen mehrerer Datensätze war für viele Programmierer eine echte Herausforderung. Pandas überwinden auch dies und führen mehrere Datensätze sehr effizient zusammen. Die Pandas-Bibliothek bietet auch Zugriff auf andere wichtige Python-Bibliotheken wie Matplotlib und NumPy, was sie zu einer hocheffizienten Bibliothek macht.

Welche anderen Bibliotheken und Tools ergänzen die Pandas-Bibliothek?

Pandas fungiert nicht nur als zentrale Bibliothek zum Erstellen von Datenrahmen, sondern arbeitet auch mit anderen Bibliotheken und Tools von Python zusammen, um effizienter zu sein. Pandas basiert auf dem NumPy-Python-Paket, was darauf hinweist, dass der größte Teil der Pandas-Bibliotheksstruktur aus dem NumPy-Paket repliziert wird. Die statistische Analyse der Daten in der Pandas-Bibliothek wird von SciPy durchgeführt, Plotting-Funktionen auf Matplotlib und maschinelle Lernalgorithmen in Scikit-learn. Jupyter Notebook ist eine webbasierte interaktive Umgebung, die als IDE funktioniert und eine gute Umgebung für Pandas bietet.

Geben Sie die grundlegenden Operationen des Datenrahmens an

Es ist wichtig, einen Index oder eine Spalte auszuwählen, bevor Sie mit einer Operation wie Hinzufügen oder Löschen beginnen. Sobald Sie gelernt haben, wie Sie auf Werte zugreifen und Spalten aus einem Datenrahmen auswählen, können Sie lernen, Index, Zeile oder Spalte in einem Pandas-Datenrahmen hinzuzufügen. Wenn der Index im Datenrahmen nicht wie gewünscht ausfällt, können Sie ihn zurücksetzen. Um den Index zurückzusetzen, können Sie die Funktion „reset_index()“ verwenden.