パンダのチートシート：知っておくべきトップコマンド[2022]

公開: 2021-01-06

データ分析は新しいジャンルの研究になりました。すべてPythonのおかげです。 Pythonに取り組んでいる熱狂的なデータアナリストがほぼ絶対にPandasライブラリを使用している場合は、この記事が役に立ちます。このパンダのチートシートでは、データの分析に役立つすべての基本的な方法について説明します。 パンダで何かをするための特定の構文を覚えるのが難しい状況に遭遇したかもしれません。これらのパンダのチートシートコマンドは、最も一般的なパンダの操作を簡単に覚えて参照するのに役立ちます。 Pythonとデータサイエンスの初心者の場合、upGradのデータサイエンスコースは、データと分析の世界を深く掘り下げるのに間違いなく役立ちます。

Pandasチートシートの使用
- 1.さまざまなファイルからデータをインポートします
- 2.さまざまなファイル形式でDataFrameをエクスポートします
- 3.DataFrameまたはシリーズの特定のセクションを検査します
- 4.データの特定のサブセットを選択する
- 5.データクリーニングコマンド
- 6.データのグループ化、並べ替え、およびフィルター処理
- 7.その他
結論
- パンダライブラリの顕著な特徴は何ですか？
- Pandasライブラリを補完する他のライブラリとツールは何ですか？
- データフレームの基本的な操作を説明します

Pandasチートシートの使用

このPandasチートシートを使用する前に、Pandasチュートリアルを完全に学習してから、このチートシートを参照して覚えておく必要があります。 パンダのチートシートは、すでに学んだ方法をすばやく探すのに役立ち、試験や面接に行く場合でも役立ちます。 簡単に検出できるように、データアナリストがパンダで頻繁に使用するすべてのコマンドを収集してグループ化しました。このパンダのチートシートでは、さまざまなオブジェクトを表すために次の省略形を使用します。

df：PandasDataFrameオブジェクトを表すため
ser：パンダシリーズオブジェクトを表すため

この記事で後述するメソッドを実装するには、次の関連ライブラリを使用する必要があります。

パンダをpdとしてインポートします
numpyをnpとしてインポートします

必読：パンダのインタビューの質問

1.さまざまなファイルからデータをインポートします

CSVファイルからすべてのデータを読み取るには：pd.read_csv（file_name）
区切られたテキストファイル（TSVなど）からすべてのデータを読み取るには：pd.read_table（file_name）
Excelシートから読み取るには：pd.read_excel（file_name）
SQLデータベースからデータを読み取るには：pd.read_sql（query、connectionObject）
JSON形式の文字列またはURLからデータを取得する：pd.read_json（jsonString）
クリップボードの内容を取得するには：pd.read_clipboard（）

2.さまざまなファイル形式でDataFrameをエクスポートします

DataFrameをCSVファイルに書き込むには：df.to_csv（file_name）
DataFrameをExcelファイルに書き込むには：df.to_excel（file_name）
DataFrameをSQLテーブルに書き込むには：df.to_sql（tableName、connectionObject）
データフレームをJSON形式でファイルに書き込むには：df.to_json（file_name）

3.DataFrameまたはシリーズの特定のセクションを検査します

インデックス、データ型、およびメモリに関連するすべての情報をフェッチするには：df.info（）
DataFrameの開始'n'行を抽出するには：df.head（n）
DataFrameの最後の「n」行を抽出するには：df.tail（n）
DataFrameで使用可能な行と列の数を抽出するには：df.shape
数値列の統計を要約するには：df.describe（）
一意の値とその数を表示するには：ser.value_counts（dropna = False）

4.データの特定のサブセットを選択する

最初の行を抽出します：df.iloc [0、：]
DataFrameの最初の列の最初の要素を抽出するには：df.iloc [0,0]
ラベル「col」を持つ列をシリーズとして返すには：df [col]
新しいDataFrameを持つ列を返すには：df [[col1、col2]]
位置でデータを選択するには：ser.iloc [0]
インデックスでデータを選択するには：ser.loc ['index_one']

5.データクリーニングコマンド

列の名前をまとめて変更するには：df.rename（columns = lambda x：x + 1）
列の名前を選択的に変更するには：df.rename（columns = {'oldName'：'newName'}）
インデックスの名前をまとめて変更するには：df.rename（index = lambda x：x + 1）
列の名前を順番に変更するには：df.columns = ['x'、'y'、'z']
null値が存在するかどうかを確認するには、それに応じてブール値のarrrayを返します。pd.isnull（）
pd.isnull（）の逆：pd.notnull（）
null値を含むすべての行を削除します：df.dropna（）
null値を含むすべての列を削除します：df.dropna（axis = 1）
各null値を「n」に置き換えるには：df.fillna（n）
シリーズのすべてのデータ型をfloatに変換するには：ser.astype（float）
番号が付けられたすべての1を「1」に、3を「3」に置き換えるには：ser.replace（[1,2]、['one'、'two']）

また読む：パンダデータフレームAstype

6.データのグループ化、並べ替え、およびフィルター処理

列値のgroupbyオブジェクトを返すには：df.groupby（colm）
複数の列値のgroupbyオブジェクトを返すには：df.groupby（[colm1、colm2]）
値を昇順（列順）で並べ替えるには：df.sort_values（colm1）
値を降順（列順）で並べ替えるには：df.sort_values（colm2、ascending = False）
列の値が0.6より大きい行を抽出します：df [df [colm]> 0.6]

7.その他

最初のDataFrameの行を2番目のDataFrameの最後に追加します。df1.append（df2）
最初のDataFrameの列を2番目のDataFrameの最後に追加します：pd.concat（[df1、df2]、axis = 1）
すべての列の平均を返すには：df.mean（）
null以外の値の数を返すには、次のようにします。df.count（）

結論

これらのパンダのチートシートは、迅速なリコールにのみ役立ちます。 パンダのチートシートに直接ジャンプする前に、コマンドを練習することは常に良いアプローチです。

パンダについて知りたい場合は、IIIT-BとupGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1- on-1業界のメンター、400時間以上の学習、トップ企業との仕事の支援。

パンダライブラリの顕著な特徴は何ですか？

以下は、Pandasを最も人気のあるPythonライブラリの1つにする機能です。Pandasは、効率的なデータ表現を可能にするだけでなく、それを操作することもできるさまざまなデータフレームを提供します。データにラベルを付けて整理するインテリジェントな方法を提供する、効率的な配置およびインデックス作成機能を提供します。 Pandasの一部の機能により、コードがクリーンになり、読みやすさが向上するため、コードがより効率的になります。また、複数のファイル形式を読み取ることもできます。 JSON、CSV、HDF5、およびExcelは、Pandasでサポートされているファイル形式の一部です。複数のデータセットをマージすることは、多くのプログラマーにとって大きな課題でした。パンダもこれを克服し、複数のデータセットを非常に効率的にマージします。 Pandasライブラリは、MatplotlibやNumPyなどの他の重要なPythonライブラリへのアクセスも提供するため、非常に効率的なライブラリになります。

Pandasライブラリを補完する他のライブラリとツールは何ですか？

Pandasは、データフレームを作成するための中央ライブラリとして機能するだけでなく、Pythonの他のライブラリやツールと連携してより効率的に機能します。 PandasはNumPyPythonパッケージに基づいて構築されており、Pandasライブラリ構造のほとんどがNumPyパッケージから複製されていることを示しています。 Pandasライブラリのデータの統計分析は、SciPyによって操作され、Matplotlibに関数をプロットし、Scikit-learnの機械学習アルゴリズムを使用します。 Jupyter Notebookは、IDEとして機能し、パンダに適した環境を提供するWebベースのインタラクティブ環境です。

データフレームの基本的な操作を説明します

追加や削除などの操作を開始する前に、インデックスまたは列を選択することが重要です。値にアクセスしてデータフレームから列を選択する方法を学習したら、Pandasデータフレームにインデックス、行、または列を追加する方法を学習できます。データフレームのインデックスが希望どおりにならない場合は、リセットできます。インデックスをリセットするには、「reset_index（）」関数を使用できます。