Python-Pandas-Tutorial: Alles, was Anfänger über Python-Pandas wissen müssen

Veröffentlicht: 2020-03-26

In diesem Artikel werfen wir einen Blick auf eine der beliebten Bibliotheken von Python, die für Datenprofis unerlässlich ist, Pandas. Sie würden sowohl die Grundlagen als auch die Funktionsweise kennenlernen.

Lass uns anfangen.

Inhaltsverzeichnis

Was sind Pandas?

Python Pandas ist aus vielen Gründen beliebt. Seine Hauptanwendung ist die Datenmanipulation, deren Analyse sowie die Bereinigung. Sie können es für verschiedene Datentypen und Datasets verwenden, einschließlich unbeschrifteter Daten und geordneter Zeitreihendaten. Einfach ausgedrückt können wir sagen, dass Pandas das Zuhause Ihrer Daten ist. Mit diesem Tool können Sie zahlreiche Operationen an Ihren Daten durchführen.

Sie können das Datenformat einer Datei konvertieren, zwei Datensätze zusammenführen, Berechnungen durchführen, sie mithilfe von Matplotlib visualisieren usw. Mit so vielen Funktionen ist es eine beliebte Wahl unter Datenprofis. Deshalb ist es wichtig, darüber zu lernen. Und ohne zu verstehen, wie es funktioniert, können Sie es nicht verwenden, also konzentrieren wir uns in diesem Python-Pandas-Tutorial auf dasselbe.

Lesen Sie: Python-Datenvisualisierungsbibliotheken

Rolle von Pandas in der Datenwissenschaft

Die Pandas-Bibliothek ist ein wesentlicher Bestandteil des Arsenals eines jeden Datenexperten. Es basiert auf NumPy, einer weiteren beliebten Python-Bibliothek. Ein Großteil der Struktur von NumPy ist in Pandas vorhanden. Wenn Sie also mit ersterem vertraut sind, haben Sie keine Schwierigkeiten, sich mit letzterem vertraut zu machen.

Meistens verwenden Experten Pandas, um Daten für statistische Analysen in SciPy einzuspeisen. Sie verwenden diese Daten auch mit Matplotlib oder Scikit-learn für ihre Funktionen (Plottenfunktionen bzw. maschinelles Lernen).

Erfahren Sie mehr über die maschinellen Lernbibliotheken von Python.

Voraussetzungen

Bevor wir beginnen, die Funktionsweise von Python Pandas und seine Operationen zu diskutieren, sollten wir zunächst klarstellen, wer es richtig verwenden kann und wer nicht. Sie sollten zunächst mit dem zugrunde liegenden Code von Python und NumPy vertraut sein.

Der erste, dh die Grundlagen von Python, ist aus offensichtlichen Gründen von entscheidender Bedeutung. Sie würden nicht viel verstehen, ohne zu wissen, wie Python-Code funktioniert. Und selbst wenn Sie dies tun, könnten Sie den Code nicht ausprobieren, da Sie den zugrunde liegenden Code erst noch lernen müssten.

Das zweite, NumPy, ist unbedingt zu lernen, da Pandas darauf basiert. Ein Verständnis von NumPy wird Ihnen erheblich dabei helfen, sich mit Pandas vertraut zu machen.

In unseren Blogs zu Data Science und Python können Sie mehr über Python erfahren . Wir haben viele hilfreiche Leitfäden und Artikel, die Sie mit den Grundlagen vertraut machen können. Es ist kostenlos, und wenn Sie irgendwelche Zweifel haben, können Sie diese in den Kommentarbereich schreiben.

Wenn Sie mit beiden von uns erwähnten Themen vertraut sind, werfen wir einen genaueren Blick auf Pandas:

Panda installieren

Um Pandas verwenden zu können, müssen Sie es installieren. Das Beste daran ist, dass die Installation und der Import von Pandas sehr einfach sind. Öffnen Sie einfach die Befehlszeile (wenn Sie einen Mac verwenden, müssen Sie das Terminal öffnen) und installieren Sie Pandas mit diesen Codes:

Für PC-Benutzer: pip install pandas

Für Mac-Benutzer: conda install pandas

In Pandas haben Sie es mit Serien und Datenrahmen zu tun. Während sich eine Reihe auf eine Spalte bezieht, bezieht sich ein Datenrahmen auf eine mehrdimensionale Tabelle mit mehreren Reihen. Werfen wir nun einen Blick auf die Operationen, die Sie in Pandas ausführen können.

Operationen in Pandas

Nachdem wir nun seine Bedeutung und Definition besprochen haben, sollten wir uns nun die Aktionen ansehen, die Sie in diesem Python-Pandas-Tutorial ausführen können. Pandas bietet Ihnen viele Funktionen, die wir im Folgenden besprochen haben:

Datenanzeige

Am Anfang sollten Sie einige Zeilen Ihres Datensatzes ausdrucken, um sie als visuelle Referenz aufzubewahren. Und Sie können dies mit der Funktion .head() tun.

file1.head()

Diese Funktion gibt Ihnen die ersten fünf Zeilen des Datenrahmens. Wenn Sie mehr Zeilen als die ersten fünf erhalten möchten, können Sie einfach die erforderliche Anzahl in der Funktion übergeben. Angenommen, Sie möchten die ersten 15 Zeilen des Datenrahmens, schreiben Sie den folgenden Code:

file1.head(15)

Sie haben auch die Möglichkeit, die letzten fünf Zeilen des Datenrahmens anzuzeigen. Sie können dies tun, indem Sie die Funktion .tail() verwenden. Und genau wie die .head()-Funktion kann auch die .tail()-Funktion eine Zahl akzeptieren und Ihnen die erforderliche Anzahl von Zeilen liefern.

file1.tail(20)

Dieser Code würde Ihnen die letzten 20 Zeilen Ihres Datenrahmens geben.

Informationen erhalten

Eine der ersten Funktionen, die Datenwissenschaftler mit Pandas verwenden, ist .info(). Das liegt daran, dass es Informationen über den Datenrahmen anzeigt und Ihnen ein tieferes Verständnis dafür vermittelt, womit Sie arbeiten. So verwenden Sie es in Pandas:

file1.info()

Es bietet Ihnen viele nützliche Informationen über den Datensatz, wie z. B. die Menge der Nicht-Null-Werte, die Anzahl der Zeilen, den in einer Spalte vorhandenen Datentyp usw.

In vielen Fällen ist es wichtig, den Datentyp der Werte Ihres Datenrahmens zu kennen. Angenommen, Sie müssen arithmetische Operationen mit den Daten ausführen, aber sie enthalten Zeichenfolgen. Wenn Sie Ihre mathematischen Operationen ausführen, wird ein Fehler angezeigt, da Sie solche Operationen nicht für Zeichenfolgen ausführen können. Wenn Sie andererseits die Funktion .info() verwenden würden, bevor Sie irgendwelche Operationen durchführen, wüssten Sie bereits, dass Sie Strings haben.

Während die Funktion .info() Ihnen die allgemeinen Informationen zu Ihrem Datensatz anzeigt, liefert Ihnen das Attribut .shape ein Tupel Ihres Datenrahmens. Wie viele Zeilen und Spalten Ihr Datensatz hat, können Sie mit Hilfe des Attributs .shape herausfinden. Und Sie können es auf folgende Weise verwenden:

file1.shape

Dieses Attribut hat keine Klammern, da es Ihnen nur ein Tupel aus Zeilen und Spalten gibt. Sie werden das Attribut .shape ziemlich oft verwenden, wenn Sie Ihre Daten bereinigen.

Erfahren Sie auch: Gehalt für Python-Entwickler in Indien

Verkettung

Lassen Sie uns nun das Verkettungsattribut in diesem Python-Pandas-Tutorial besprechen. Verkettung bezieht sich auf das Zusammenfügen von zwei oder mehr Dingen. Mit diesem Attribut können Sie also zwei Datensätze kombinieren, ohne ihre Werte oder Datenpunkte in irgendeiner Weise zu ändern. Sie lassen sich so kombinieren, wie sie sind. Zu diesem Zweck müssen Sie die Funktion .concat() verwenden. Hier ist wie:

result = pd.concat([file1,file2])

Es kombiniert die Datei1- und Datei2-Datenrahmen und zeigt sie als einen einzigen Datenrahmen an.

df1 = pd.DataFrame({"HPI":[80,90,70,60]","Int_Rate":[2,1,2,3], "IND_BIP":[50,45,45,67]}, index=[2001, 2002,2003,2004])

df2 = pd.DataFrame({"HPI":[80,90,70,60]","Int_Rate":[2,1,2,3]", "IND_BIP":[50,45,45,67]}, index=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

drucken (verknüpfen)

Die Ausgabe des obigen Codes:

HPI IND_BIP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Sie müssen bemerkt haben, wie die Funktion .concat() die beiden Datenrahmen kombiniert und in einen konvertiert hat.

Ändern des Index

Sie können auch die Indexwerte in Ihrem Datenrahmen ändern. Zu diesem Zweck müssen Sie die Funktion .set_index() verwenden. In den Klammern dieser Funktion müssten Sie die Details eingeben, um den Index zu ändern. Schauen Sie sich das folgende Beispiel an, um es besser zu verstehen.

pandas als pd importieren

df= pd.DataFrame({„Tag“:[1,2,3,4], „Besucher“:[200, 100,230,300], „Absprungrate“:[20,45,60,10]})

df.set_index(“Tag”, inplace= True)

drucken (df)

Die Ausgabe des obigen Codes:

Bounce_Rate Besucher

Tag

1 20 200

2 45 100

3 60 230

4 10 300

Sie können sehen, dass unser Code den Indexwert der Daten entsprechend den Tagen geändert hat.

Ändern der Spaltenüberschriften

Sie können die Spaltenüberschriften auch in Python Pandas ändern. Sie müssen lediglich die Funktion .rename() verwenden. Sie können die Spaltennamen eingeben, die ursprünglich in Klammern vorhanden waren, und die Spaltennamen, die im Ausgabecode erscheinen sollen.

Angenommen, Sie haben eine Tabelle mit der Spaltenüberschrift „Zeit“ und möchten diese in „Stunden“ ändern. Sie können den Namen dieser Spalte mit dem folgenden Code ändern:

df = df.rename(columns={"Zeit" : "Stunden"})

Dieser Code ändert den Namen der Spaltenüberschrift von „Time“ in „Hours“. Dies ist eine hervorragende Funktion für effizientes Üben. Sehen wir uns an, wie Sie die Formate Ihrer Daten konvertieren können.

Daten-Munging

Beim Data Munging haben Sie die Möglichkeit, das Format bestimmter Daten zu konvertieren. Sie können eine .csv-Datei in eine .html-Datei konvertieren oder umgekehrt. Hier ist ein Beispiel dafür, wie Sie dies tun können:

pandas als pd importieren

country= pd.read_csv(“D:UsersUser1Downloadsworld-bank-jugendarbeitslosigkeitAPI_ILO_country_YU.csv”,index_col=0)

country.to_html('file1.html')

Nachdem Sie diesen Code ausgeführt haben, wird eine HTML-Datei für Sie erstellt, die Sie in Ihrem Browser ausführen können. Data Munging ist eine hervorragende Funktion, die in vielen Situationen Verwendung finden wird.

Fazit

Und jetzt haben wir das Ende dieses Python-Pandas-Tutorials erreicht. Wir hoffen, Sie fanden es nützlich und informativ. Python Pandas ist ein riesiges Thema, und mit den zahlreichen Funktionen, die es hat, würde es einige Zeit dauern, bis man sich vollständig damit vertraut gemacht hat.

Wenn Sie daran interessiert sind, mehr über Python, seine verschiedenen Bibliotheken, einschließlich Pandas, und seine Anwendung in der Datenwissenschaft zu erfahren, sehen Sie sich das PG-Diplom in Datenwissenschaft von IIIT-B & upGrad an, das für Berufstätige erstellt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1-on-1 mit Branchenmentoren, über 400 Stunden Lernen und Arbeitsassistenz bei Top-Unternehmen.

Muss ich Python kennen, um Pandas zu verwenden?

Bevor Sie mit Pandas beginnen, müssen Sie verstehen, dass es sich um ein für Python erstelltes Paket handelt. Sie müssen also auf jeden Fall die Grundlagen sowie die Syntax der Python-Programmierung fest im Griff haben, um Pandas problemlos verwenden zu können. Wenn es darum geht, mit Tabellendaten in Python zu arbeiten, gilt Pandas als die beste Wahl.

Sie müssen sich jedoch mit der in Python verwendeten Syntax vertraut machen, bevor Sie mit Pandas beginnen. Es ist unnötig, viel Zeit damit zu verbringen, aber Sie müssen nur genug Zeit investieren, um sich mit der grundlegenden Syntax vertraut zu machen, damit Sie mit Aufgaben beginnen können, die Pandas betreffen.

Wie lange dauert es, Pandas in Python zu lernen?

Pandas ist die am weitesten verbreitete Python-Bibliothek für den Umgang mit tabellarischen Daten. Sie können Pandas für alle Aufgaben verwenden, für die Sie Excel verwenden könnten. Wenn Sie sich bereits mit der Python-Programmierung und ihrer Syntax auskennen, können Sie sich innerhalb von zwei Wochen problemlos mit der Funktionsweise von Pandas vertraut machen. Wenn Sie mit Pandas beginnen, sollten Sie mit den grundlegenden Datenmanipulationsprojekten beginnen, um einen Griff zu bekommen.

Im weiteren Verlauf werden Sie feststellen, dass Pandas ein sehr nützliches Data-Science-Tool ist, das ein Schlüsselfaktor für Geschäftsentscheidungen in mehreren Branchen sein kann.

Soll ich lieber zuerst Numpy oder Pandas lernen?

Es ist vorzuziehen, Numpy vor Pandas zu lernen, da Numpy das grundlegendste Modul in Python für wissenschaftliches Rechnen ist. Sie erhalten auch die Unterstützung von hochoptimierten mehrdimensionalen Arrays, die als die grundlegendste Datenstruktur jedes Algorithmus für maschinelles Lernen gelten.

Wenn Sie mit dem Erlernen von Numpy fertig sind, sollten Sie mit Pandas beginnen, da Pandas als Erweiterung von Numpy angesehen wird. Dies liegt daran, dass der zugrunde liegende Code von Pandas die Numpy-Bibliothek ausgiebig verwendet.