Pandas verketten Datenrahmen [2022]
Veröffentlicht: 2021-01-06Stellen Sie sich vor, Sie haben zwei Datensätze, die Sie kombinieren müssen, um eine Analyse durchzuführen. Bei der Verwendung von SQL können Datensätze aus zwei oder mehr Tabellen in einer Datenbank mithilfe von SQL-Joins kombiniert werden. In ähnlicher Weise gibt es auch in Python Optionen zum Verketten von Datenrahmen. Was ist also ein Datenrahmen? Ein Datenrahmen in Python hat mehrere Zeilen und Spalten. Es ähnelt einer Tabelle in SQL. Sie haben die Pandas-Softwarebibliothek für die Datenanalyse in Python. Pandas verketten Datenrahmen helfen uns, Datenrahmen basierend auf einer bestimmten Logik zu kombinieren.
Die verschiedenen Möglichkeiten, Datenrahmen zu kombinieren:
- Inner Join: Inner Join ist dem Schnittpunkt zweier Mengen sehr ähnlich. Bei einem Inner Join wird ein Datenrahmen zurückgegeben, der nur die Zeilen mit gemeinsamen Eigenschaften enthält. Somit sollte jede Reihe in den beiden kombinierten Datenrahmen übereinstimmende Spaltenwerte haben.
- Left Join: Ein Left Join gibt alle Zeilen aus dem linken Datenrahmen und nur die übereinstimmenden Zeilen aus dem rechten Datenrahmen zurück.
- Right Join: Ein Right Join gibt alle Zeilen aus dem rechten Datenrahmen und nur die übereinstimmenden Zeilen aus dem linken Datenrahmen zurück.
- Vollständiger oder äußerer Join: Bei einem vollständigen Join werden alle Zeilen sowohl aus dem linken als auch aus dem rechten Datenrahmen beibehalten.
Quelle
Schauen wir uns nun die in Pandas vorhandenen Funktionen zum Kombinieren von Datenrahmen oder Serien an.
Inhaltsverzeichnis
Funktionen in Pandas
1. Join-Funktion
Wie wir gelesen haben, verfügt Python über viele SQL-ähnliche Funktionen zum Kombinieren von Daten. Datenrahmen haben einen Index, der als Adresse dient. Normalerweise werden Zeilenindizes als Index bezeichnet, während Spalten mit den Spaltennamen angesprochen werden. Mit der Join-Operation können Sie alle Spalten aus zwei Datenrahmen zusammenführen. Sie können die linke und rechte Spalte umbenennen, indem Sie die Parameter „lsuffix“ und „rsuffix“ aktualisieren. Sie haben die Möglichkeit, die Art der Zusammenführung auszuwählen, indem Sie den Parameter „Wie“ aktualisieren.
2. Merge-Funktion
Die Merge-Funktion ist der Join-Operation ziemlich ähnlich. Sie erhalten jedoch eine flexible Steuerung, während Sie alle Spalten aus zwei Datenrahmen kombinieren. Sie können on = Spaltenname verwenden, um Datenrahmen in der gemeinsamen Spalte zusammenzuführen. Sie können left_on = Column Name oder right_on = Column Name aktualisieren, um Tabellen mit Spalten aus dem linken oder rechten Datenrahmen als Schlüssel auszurichten. Wenn Sie left_index = True oder right_index = True auswählen, können Sie die Zeilenbeschriftungen aus dem linken oder rechten Datenrahmen als Join-Schlüssel verwenden.
Syntax:
DataFrame.merge( self , right , how='left' , on=None , left_on=None ,
right_on=None , left_index=False , right_index=False , sort=False , suffixes =('_x' , '_y') , copy=True , Indicator=False , validate=None )
Lesen Sie: Interviewfragen für Pandas
3. Concat-Funktion
Mit der Concat-Funktion können Sie Daten in Spalten oder Zeilen nach Ihrer Wahl kombinieren. Sie können die Verknüpfungslogik (Links/Rechts/Innen/Vollverknüpfung) auf einer der beiden Achsen einstellen. Sie erhalten auch eine Option zum Überprüfen, ob die neue verkettete Achse doppelte Werte enthält, indem Sie verify_integrity verwenden. Wenn auf der Verkettungsachse kein Indexwert angegeben ist, wird die resultierende Achse als 0,1,… n-1 bezeichnet. Mit dem Parameter keys können Sie anhand der übergebenen Schlüssel eine hierarchische Indizierung bilden.

Syntax
pandas.concat( objs , axis=0 , join='left' , join_axes=None ,
ignorieren_index=Falsch , Schlüssel=Keine , Ebenen=Keine , Namen=Keine ,
verify_integrity=False , sort=None , copy=True )
Lesen Sie: Datenstrukturalgorithmus in Python
Einpacken
Wie wir in pandas.DataFrame gesehen haben, werden Merge- und Join-Funktionen verwendet, um Datenrahmen zu kombinieren, die an Spalten arbeiten. Es besteht auch die Möglichkeit, Spalten basierend auf dem bereitgestellten Suffix umzubenennen. Die Zusammenführungsfunktion bietet mehr Flexibilität bei der zeilenweisen Ausrichtung. Im Gegensatz dazu kann die Concat-Funktion von Pandas sowohl auf Zeilen als auch auf Spalten ausgeführt werden.
Bei Verwendung der Concat-Funktion werden Spalten nicht umbenannt. Pandas verketten Datenrahmen ist ein wesentliches Merkmal, wenn wir zwei Datenrahmen kombinieren müssen. Das Zusammenführen von zwei Datenrahmen unter bestimmten Bedingungen hilft Ihnen, die Daten vorzubereiten, die für die Analyse und andere Aufgaben benötigt werden. Daher ist das Verketten von Datenrahmen für die Softwarebibliothek pandas eine integrale Funktion.
Möchten Sie mehr über die verschiedenen Funktionen von Pandas erfahren und tiefer in Data Analytics eintauchen? Sie können das von upGrad angebotene PG-Diplom in Data Science überprüfen. Die Kurse werden von Branchenexperten durchgeführt und helfen Ihnen dabei, mehr über die explorative Datenanalyse, verschiedene Datenvisualisierungstechniken und Algorithmen für maschinelles Lernen zu erfahren. Starten Sie Ihre Karriere im Bereich Data Analytics und Machine Learning mit upGrad.
Was sind die verschiedenen Arten von Gelenken bei Pandas?
Die Pandas-Bibliothek bietet vier Arten von verschiedenen Verknüpfungen zum Kombinieren von Datenrahmen. Diese Joins sind wie folgt: Inner Join ist der grundlegendste Join zum Kombinieren von Datenrahmen. Der innere Join gibt einen Datenrahmen zurück, der nur die Zeilen enthält, die gemeinsame Eigenschaften haben. Daher sollten beide kombinierten Datenrahmen gemeinsame Werte haben. Der vollständige oder äußere Join gibt alle Zeilen sowohl des linken als auch des rechten Datenrahmens zurück. Mit anderen Worten, es stellt die Vereinigung beider Datenrahmen bereit. Der linke Join gibt alle Zeilen des linken Datenrahmens zusammen mit den übereinstimmenden Zeilen des rechten Datenrahmens zurück. Der rechte Join ist genau das Gegenteil des linken Joins. Es gibt alle Zeilen des rechten Datenrahmens zusammen mit den passenden Zeilen des linken Datenrahmens zurück.
Welche Möglichkeiten gibt es, Zeilen oder Spalten zu verketten?
Die Zeilen oder Spalten zweier Datenrahmen können auf folgende Weise verkettet werden: 1. Verketten von DataFrame mit .concat() – dies ist der einfachste Weg, zwei Zeilen oder Spalten zu verketten, wenn wir die Funktion „.concat()“ verwenden. 2. DataFrame verketten, indem Logik auf Achsen gesetzt wird – In dieser Methode definieren wir unterschiedliche Logik auf Achsen. Im Folgenden sind die Möglichkeiten zum Festlegen von Achsen aufgeführt: Nehmen Sie die Vereinigung (Join = Outside), nehmen Sie den Schnittpunkt (Join = Inner), Verwenden Sie einen bestimmten Index. 3. Verketten von DataFrames mit .append() – die Funktion „.append()“ wird direkt vor der Funktion „.concat()“ verwendet und verkettet entlang der Achse = 0. 4. Verketten von DataFrames durch Ignorieren von Indizes – In dieser Methode , ignorieren wir die bedeutungslosen Indizes und hängen den Datenrahmen an. Wir verwenden ignore_index als Argument, um die überlappenden Indizes zu ignorieren.
Was wissen Sie über die Merge-Funktion?
Die Zusammenführungsfunktion wird an zwei Datenrahmen betrieben, um die Zeilen oder Spalten zusammenzuführen. Es handelt sich um eine Verknüpfungsoperation mit hohem Arbeitsspeicher, die relationalen Datenbanken ähnelt. Sie können on = Spaltenname verwenden, um Datenrahmen in der gemeinsamen Spalte zusammenzuführen.
Sie können left_on = Column Name oder right_on = Column Name aktualisieren, um Tabellen mit Spalten aus dem linken oder rechten Datenrahmen als Schlüssel auszurichten. Wenn Sie left_index = True oder right_index = True auswählen, können Sie die Zeilenbeschriftungen aus dem linken oder rechten Datenrahmen als Join-Schlüssel verwenden.