Python Pandasチュートリアル:初心者がPythonPandasについて知っておくべきことすべて

公開: 2020-03-26

この記事では、データの専門家に不可欠なPythonの人気のあるライブラリの1つであるPandasを見ていきます。 その基本と操作について学ぶことができます。

始めましょう。

目次

パンダとは何ですか?

PythonPandasは多くの理由で人気があります。 その主な用途は、データ操作、分析、およびクリーニングです。 ラベルのないデータや順序付けられた時系列データなど、さまざまなデータ型とデータセットに使用できます。 簡単に言えば、パンダはあなたのデータの本拠地であると言えます。 このツールを使用して、データに対してさまざまな操作を実行できます。

ファイルのデータ形式を変換したり、2つのデータセットをマージしたり、計算を行ったり、Matplotlibの助けを借りて視覚化したりすることができます。非常に多くの機能を備えているため、データの専門家の間で人気があります。 それがそれについて学ぶことが不可欠である理由です。 そして、その動作を理解しないと使用できないため、このPython Pandasチュートリアルでは、同じことに焦点を当てます。

読む: Pythonデータ視覚化ライブラリ

データサイエンスにおけるパンダの役割

Pandasライブラリは、データ専門家の武器の不可欠な部分です。 これは、もう1つの人気のあるPythonライブラリであるNumPyに基づいています。 パンダには多くのNumPyの構造が存在するため、前者に精通していれば、後者に精通するのに問題はありません。

ほとんどの場合、専門家はパンダを使用して統計分析のためにSciPyのデータをフィードします。 また、このデータをMatplotlibまたはScikit-learnで関数(それぞれプロット関数と機械学習)に使用します。

Pythonの機械学習ライブラリの詳細をご覧ください。

前提条件

Python Pandasの動作とその操作について説明する前に、まず、Python Pandaを適切に使用できるのは誰か、使用できないのは誰かを明確にする必要があります。 まず、Pythonの基礎となるコードとNumPyに精通している必要があります。

最初のもの、つまりPythonの基本は、明らかな理由で不可欠です。 Pythonコードがどのように機能するかを知らなければ、あまり理解できません。 また、実行したとしても、基礎となるコードを最初に学習する必要があるため、コードを試すことはできません。

2番目のNumPyは、Pandasがそれに基づいているため、学ぶために不可欠です。 NumPyを理解しておくと、パンダに慣れるのにかなり役立ちます。

Pythonについては、データサイエンスとPythonに関するブログで学ぶことができます 基本を理解するのに役立つガイドや記事がたくさんあります。 無料です。疑問がある場合は、コメントセクションに書き留めてください。

私たちが言及した両方のトピックに精通している場合は、パンダを深く見てみましょう:

パンダのインストール

パンダを使用するには、パンダをインストールする必要があります。 一番いいのは、パンダのインストールとインポートがとても簡単なことです。 コマンドラインを開いて(Macを使用している場合は、ターミナルを開く必要があります)、次のコードを使用してPandasをインストールします。

PCユーザーの場合: pip install pandas

Macユーザーの場合: conda install pandas

パンダでは、シリーズとデータフレームを扱います。 シリーズは列を参照しますが、データフレームは複数のシリーズを持つ多次元テーブルを参照します。 次に、Pandasで実行できる操作を見てみましょう。

パンダでの操作

その重要性と定義について説明したので、このPythonPandasチュートリアルで実行できるアクションを検討する必要があります。 Pandasは多くの機能を提供しますが、以下でそれらについて説明します。

データ表示

視覚的な参照として保持するために、最初にデータセットの行の一部を印刷することをお勧めします。 そして、.head()関数を使用してこれを行うことができます。

file1.head()

この関数は、データフレームの最初の5行を提供します。 最初の5行より多くの行を取得したい場合は、関数で必要な数を渡すだけです。 データフレームの最初の15行が必要な場合は、次のコードを記述します。

file1.head(15)

データフレームの最後の5行を表示するオプションもあります。 これは、.tail()関数を使用して行うことができます。 また、.head()関数と同様に、.tail()関数も数値を受け入れ、必要な数の行を提供できます。

file1.tail(20)

このコードは、データフレームの最後の20行を提供します。

情報を教えてもらう

データサイエンティストがPandasで使用する最初の関数の1つは、.info()です。 これは、データフレームに関する情報が表示され、作業内容をより深く理解できるためです。 パンダでの使用方法は次のとおりです。

file1.info()

これは、null以外の値の量、行の数、列に存在するデータのタイプなど、データセットに関する多くの有用な情報を提供します。

多くの場合、データフレームの値のデータ型を知ることは不可欠です。 データに対して算術演算を実行する必要があるが、データに文字列があるとします。 数学演算を実行すると、文字列に対してそのような演算を実行できないため、エラーがポップアップ表示されます。 一方、操作を行う前に.info()関数を使用する場合は、文字列があることをすでに知っているはずです。

.info()関数はデータセットに関する一般的な情報を表示しますが、.shape属性はデータフレームのタプルを表示します。 .shape属性を使用すると、データセットに含まれる行と列の数を確認できます。 そして、あなたはそれを次のように使うことができます:

file1.shape

この属性は、行と列のタプルのみを提供するため、括弧はありません。 データをクリーンアップするときは、.shape属性を頻繁に使用します。

また学ぶ:インドのPython開発者給与

連結

このPythonPandasチュートリアルで連結属性について説明しましょう。 連結とは、2つ以上のものを結合することを指します。 したがって、この属性を使用すると、値やデータポイントを変更せずに2つのデータセットを組み合わせることができます。 それらはそのまま結合します。 この目的には、.concat()関数を使用する必要があります。 方法は次のとおりです。

結果=pd.concat([file1、file2])

file1とfile2のデータフレームを組み合わせて、単一のデータフレームとして表示します。

df1 = pd.DataFrame({“ HPI”:[80,90,70,60]、” Int_Rate”:[2,1,2,3]、“ IND_GDP”:[50,45,45,67]}、 index = [2001、2002、2003、2004])

df2 = pd.DataFrame({“ HPI”:[80,90,70,60]、” Int_Rate”:[2,1,2,3]、” IND_GDP”:[50,45,45,67]}、 index = [2005、2006、2007、2008])

concat = pd.concat([df1、df2])

print(concat)

上記のコードの出力:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

.concat()関数が2つのデータフレームを結合し、それらを1つに変換したことに気付いたはずです。

インデックスの変更

データフレームのインデックス値も変更できます。 そのためには、.set_index()関数を使用する必要があります。 この関数の括弧内に、インデックスを変更するための詳細を入力する必要があります。 次の例を見て、理解を深めてください。

パンダをpdとしてインポートします

df = pd.DataFrame({“ Day”:[1,2,3,4]、“ Visitors”:[200、100,230,300]、“ Bounce_Rate”:[20,45,60,10]})

df.set_index( "Day"、inplace = True)

print(df)

上記のコードの出力:

Bounce_Rateビジター

1 20200 _

2 45100 _

3 60230 _

4 10300 _

コードが日数に応じてデータのインデックス値を変更したことがわかります。

列ヘッダーの変更

PythonPandasでも列ヘッダーを変更できます。 .rename()関数を使用するだけです。 最初に存在していた列名を括弧で囲み、出力コードに表示する列名を入力できます。

列ヘッダーが「時間」であるテーブルがあり、それを「時間」に変更するとします。 この列の名前は、次のコードで変更できます。

df = df.rename(columns = {“ Time”:“ Hours”})

このコードは、列ヘッダーの名前を「時間」から「時間」に変更します。 これは、効率的な実践のための優れた機能です。 データの形式を変換する方法を見てみましょう。

データの改ざん

データの変更では、特定のデータの形式を変換するオプションがあります。 .csvファイルを.htmlファイルに変換することも、その逆も可能です。 これを行う方法の例を次に示します。

パンダをpdとしてインポートします

country = pd.read_csv(“ D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”、index_col = 0)

country.to_html('file1.html')

このコードを実行すると、ブラウザで実行できるHTMLファイルが作成されます。 データの改ざんは優れた機能であり、さまざまな状況で使用できます。

結論

そして今、私たちはこのPythonPandasチュートリアルの終わりに到達しました。 お役に立てば幸いです。 Python Pandasは広大なトピックであり、Python Pandasには多数の機能があるため、完全に理解するには時間がかかります。

Python、Pandasを含むさまざまなライブラリ、およびデータサイエンスへの応用について詳しく知りたい場合は、働く専門家向けに作成され、10以上のケーススタディを提供するIIIT-BおよびupGradのデータサイエンスのPGディプロマをご覧ください。プロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、業界のメンターとの1対1、400時間以上の学習とトップ企業との仕事の支援。

パンダを使用するにはPythonを知る必要がありますか?

Pandasを使い始める前に、それがPython用に構築されたパッケージであることを理解する必要があります。 したがって、Pandasを簡単に使い始めるには、Pythonプログラミングの基本と構文をしっかりと把握する必要があります。 Pythonで表形式のデータを操作する場合は常に、Pandasが最良の選択と見なされます。

ただし、Pandasを開始する前に、Pythonで使用されている構文を明確にする必要があります。 膨大な時間を費やす必要はありませんが、パンダを含むタスクを開始できるように、基本的な構文を明確にするために十分な時間をかけるだけで済みます。

Pythonでパンダを学ぶのにどれくらい時間がかかりますか?

Pandasは、表形式のデータを処理するために最も広く使用されているPythonライブラリです。 Excelを使用する可能性のあるすべてのタスクにPandasを使用できます。 Pythonプログラミングとその構文をすでに知っている場合は、2週間以内にPandasの機能に簡単に慣れることができます。 Pandasを使い始めるときは、理解するために基本的なデータ操作プロジェクトから始める必要があります。

さらに進むと、Pandasは非常に便利なデータサイエンスツールであり、いくつかの業界でビジネス上の意思決定を推進する重要な要素になる可能性があることに気付くでしょう。

NumpyまたはPandasを最初に学ぶことを好むべきですか?

NumpyはPythonの科学計算用の最も基本的なモジュールであるため、Pandasの前にNumpyを学習することをお勧めします。 また、すべての機械学習アルゴリズムの最も基本的なデータ構造であると考えられている、高度に最適化された多次元配列のサポートも受けられます。

Numpyの学習が終了したら、PandasはNumpyの拡張機能と見なされるため、Pandasから始める必要があります。 これは、Pandasの基盤となるコードがNumpyライブラリを広範囲に使用しているためです。