パンダはデータフレームを連結します[2022]
公開: 2021-01-06分析を実行するために組み合わせる必要のある2つのデータセットがあるとします。 SQLを使用している場合、データベース内の2つ以上のテーブルのレコードをSQL結合を使用して結合できます。 同様に、Pythonにもデータフレームを連結するオプションがあります。 では、データフレームとは何ですか? Pythonのデータフレームには複数の行と列があります。 これはSQLのテーブルに似ています。 Pythonでのデータ分析用のpandasソフトウェアライブラリがあります。 パンダはデータフレームを連結するので、特定のロジックに基づいてデータフレームを組み合わせることができます。
データフレームを組み合わせるさまざまな方法:
- 内部結合:内部結合は、2つのセットの共通部分に非常に似ています。 内部結合の場合、共通のプロパティを持つ行のみを含むデータフレームが返されます。 したがって、2つの結合されたデータフレームの各行には、一致する列値が必要です。
- 左結合:左結合は、左側のデータフレームからすべての行を返し、右側のデータフレームから一致する行のみを返します。
- 右結合:右結合は、右側のデータフレームからすべての行を返し、左側のデータフレームから一致する行のみを返します。
- 完全結合または外部結合:完全結合は、左側のデータフレームと右側のデータフレームの両方のすべての行を保持します。
ソース
次に、データフレームまたはシリーズを組み合わせるためにパンダに存在する関数を見てみましょう。
目次
パンダの機能
1.結合機能
これまで読んだように、Pythonにはデータを組み合わせるために利用できるSQLのような機能がたくさんあります。 データフレームには、アドレスとして機能するインデックスがあります。 通常、行インデックスはインデックスと呼ばれ、列は列名でアドレス指定されます。 結合操作を使用すると、2つのデータフレームのすべての列をマージできます。 「lsuffix」および「rsuffix」パラメーターを更新することにより、左右の列の名前を変更できます。 「how」パラメータを更新することにより、マージの方法を選択するオプションが表示されます。
2.マージ機能
マージ関数は、結合操作と非常によく似ています。 ただし、2つのデータフレームのすべての列を組み合わせながら、柔軟に制御できます。 on = Column Nameを使用して、共通の列のデータフレームをマージできます。 left_on=列名またはright_on=列名を更新して、左または右のデータフレームの列をキーとして使用してテーブルを整列させることができます。 left_index=Trueまたはright_index=Trueを選択すると、左側のデータフレームまたは右側のデータフレームの行ラベルを結合キーとして使用できます。
構文:
DataFrame.merge( self 、 right 、 how ='left' 、 on = None 、 left_on = None 、
right_on = None 、 left_index = False 、 right_index = False 、 sort = False 、 suffixes =('_ x' 、 '_y ') 、 copy = True 、 indicator = False 、 validate = None )

読む:パンダのインタビューの質問
3.連結機能
Concat関数を使用すると、選択に基づいて列または行のデータを組み合わせることができます。 2つの軸のいずれかで結合のロジック(左/右/内側/完全結合)を設定できます。 また、verify_integrityを使用して、新しい連結軸に重複する値が存在するかどうかを確認するオプションもあります。 連結軸にインデックス値が指定されていない場合、結果の軸には0,1、…n-1というラベルが付けられます。 keysパラメータを使用すると、渡されたキーを使用して階層的なインデックスを作成できます。
構文
pandas.concat( objs 、 axis = 0 、 join ='left' 、 join_axes = None 、
ignore_index = False 、 keys = None 、 levels = None 、 names = None 、
verify_integrity = False 、 sort = None 、 copy = True )
読む:Pythonのデータ構造アルゴリズム
まとめ
pandas.DataFrameで見たように、マージ関数と結合関数は、列で機能するデータフレームを結合するために使用されます。 提供されたサフィックスに基づいて列の名前を変更するオプションもあります。 マージ機能は、行方向の配置の場合により柔軟性を提供します。 それどころか、パンダのConcat関数は、行または列のいずれかで動作できます。
Concat関数の使用中は、列の名前変更は行われません。 パンダはデータフレームを連結することが、2つのデータフレームを組み合わせる必要がある場合に不可欠な機能です。 特定の条件を使用して2つのデータフレームをマージすると、分析やその他のタスクに必要なデータを準備するのに役立ちます。 したがって、ソフトウェアライブラリの場合、パンダはデータフレームを連結することが不可欠な機能です。
パンダで利用できるさまざまな機能について詳しく知り、データ分析について詳しく知りたいですか? upGradが提供するデータサイエンスのPGディプロマを確認できます。 このコースは業界の専門家によって実施され、探索的データ分析、さまざまなデータ視覚化手法、機械学習のアルゴリズムについてさらに学ぶのに役立ちます。 upGradを使用して、データ分析と機械学習の分野でキャリアをスタートさせましょう。
パンダのさまざまな種類の関節は何ですか?
Pandasライブラリは、データフレームを結合するための4種類の異なる結合を提供します。 これらの結合は次のとおりです。内部結合は、データフレームを結合するための最も基本的な結合です。 内部結合は、共通のプロパティを持つ行のみを含むデータフレームを返します。 したがって、結合された両方のデータフレームは共通の値を持つ必要があります。 完全結合または外部結合は、左右両方のデータフレームのすべての行を返します。 つまり、両方のデータフレームの結合を提供します。 左結合は、左データフレームのすべての行と、右データフレームの一致する行を返します。 右の結合は、左の結合の正反対です。 右側のデータフレームのすべての行と、左側のデータフレームの一致する行を返します。
行または列を連結するさまざまな方法は何ですか?
2つのデータフレームの行または列は、次の方法で連結できます。1. .concat()を使用したDataFrameの連結-これは、「。concat()」関数を使用して2つの行または列を連結する最も簡単な方法です。 2.軸にロジックを設定してDataFrameを連結する-このメソッドでは、軸に異なるロジックを定義します。 軸を設定する方法は次のとおりです。ユニオン(結合=外側)、交差(結合=内側)、特定のインデックスを使用します。 3. .append()を使用したDataFrameの連結-「.append()」関数は「.concat()」関数の直前で使用され、axis=0に沿って連結します。4。インデックスを無視してDataFrameを連結します-このメソッドでは、意味のないインデックスを無視し、データフレームを追加します。 重複するインデックスを無視するための引数としてignore_indexを使用します。
マージ機能について何を知っていますか?
マージ関数は、行または列をマージするために2つのデータフレームで操作されます。 これはハイメモリ結合操作であり、リレーショナルデータベースに似ています。 on = Column Nameを使用して、共通の列のデータフレームをマージできます。
left_on=列名またはright_on=列名を更新して、左または右のデータフレームの列をキーとして使用してテーブルを整列させることができます。 left_index=Trueまたはright_index=Trueを選択すると、左側のデータフレームまたは右側のデータフレームの行ラベルを結合キーとして使用できます。