パンダによる箱ひげ図の視覚化[包括的なガイド]

公開: 2020-09-03

統計データ分析プロジェクトを扱う際には、適用できる便利なツールがたくさんあります。 基本的な考え方は、質問を特定し、その質問に答えるために必要な機能を使用することです。 たとえば、データ分布を確認する必要がある場合、理想的な答えはデータ分布関数をプロットすることです。

値を確認して他の列の値と比較する必要がある場合は、棒グラフまたはヒストグラムをプロットするのが最善の方法です。 しかし、統計クエリを満たす必要がある場合はどうなるでしょうか。 この傾向は分布関数で観察できますが、データの特定のパーセンタイルをチェックする必要がある場合、簡単な方法はありません。 競合他社よりも優位に立つために、認められた大学からのデータサイエンストレーニングをチェックしてください。

箱ひげ図は、上記の問題の解決策として提供されます。 箱ひげ図は、属性がプロットされる列ごとに、属性のパーセンタイル値を記述するために使用されます。 箱ひげ図は、ルールベースのモデルエンジニアリングだけでなく、一般的な探索的データ分析においても非常に洞察力があります。

箱ひげ図は四分位数を扱います。

最初にパンダの箱ひげ図をプロットしてから、その部分を理解しましょう

目次

パンダの箱ひげ図をプロットする

パンダの箱ひげ図を実装するには、パンダとmatplotlibの2つの要件しかありません。 matplotlibの使用は、プロットを視覚化し、Jupyterノートブック内のプロットを表示することです。

両方のライブラリをインポートする方法は次のとおりです。 インラインマジック関数を使用して、プロットがノートブック内で直接表示されるようにします。

コード:

パンダpdとしてインポートします

matplotlib.pyplotpltとしてインポートします

%matplotlibインライン

次に、データをインポートしてDataFrameに読み込みます。 これがその方法です。

コード:

data = pd.read_csv( "FIFA 2018 Statistics.csv")

DataFrameは、Pandasの基本的なデータ構造です。 これが私たちのデータの最初の5つのサンプルです。

データがインポートされた後、DataFrameオブジェクトに対してpandas箱ひげ図関数を直接使用できます。 使用方法は次のとおりです。

コード:

data.boxplot(by =” Round”、column = ['Goal Scored'])

pandas箱ひげ図関数は2つの引数を取ります。 'by'パラメータは、X軸を選択するために使用されます。 また、「列」はY軸にプロットするデータです。

ここでは、ラウンドで得点されたゴールをプロットしています。

プロットは次のとおりです。

チェックアウト: Pythonインタビューの質問

箱ひげ図を読む

それでは、プロットを読んでみましょう。 まず、軸の値を理解します。 Y軸は試合で得点されたゴール数を示し、X軸はゲームがプレイされたラウンドを示します。 最終ラウンドを例にとってみましょう。

注意深く観察すると、ボックスは2から4の間のどこかに作成され、中央の線は3になっています。 ボックスは、25パーセンタイル値、50パーセンタイル値、および75パーセンタイル値の3つの値を使用してプロットされます。 プロットの下の線は、試合で得点されたゴールの25パーセンタイルを示し、中央は50パーセンタイルを示し、上の線は75パーセンタイルを示します。 したがって、箱ひげ図は、データの四分位範囲(IQR)で機能します。

読む: Pythonパンダチュートリアル:初心者がPythonパンダについて知っておくべきことすべて

さて、ボックスの上下にもう1つ描かれています。 これらの線はひげとして知られています。 したがって、箱ひげ図は箱ひげ図とも呼ばれます。

ひげをプロットするユニークな方法はありません。 ひげを示す最も一般的な方法は、データ列の最小値と最大値でひげをマークすることです。 seabornのような一部のライブラリは、ひげをマークするためにIQRの乗法値を使用します。 パンダの箱ひげ図は、ひげをマークするために最大値と最小値を使用します。

お気づきの方もいらっしゃると思いますが、4から6の間にいくつかのポイントがあります。 これらは外れ値として知られています。 箱ひげ図は、ルールベースのシステムでエラー計算として適度に役立ちます。または、誤分類をすばやく特定できます。 たとえば、グラフでは、3位ラウンドと最終ラウンドを区別するだけでよい場合、データを正確に分類するルールベースのシステムを簡単に作成できます。 0から2の場合は、第3ラウンドをマークし、2から4の場合は、最終ラウンドをマークします。

箱ひげ図は、データ列の全体的な分布を理解するのに役立ちます。 プロットは、四分位値を使用して分布を示しています。 分布が適切にマークされているため、データをすばやく分析するのが簡単になります。 ひげは、列の残りの値を示します。

結論

下限は25%未満のデータを示し、上限は75%を超えるデータを示します。 外れ値が少ない場合は、パンダの箱ひげ図を使用すると、外れ値をすばやく特定できます。 全体として、それらを正しく読み取ることができれば、箱ひげ図はデータ分析に非常に役立ちます。

データサイエンスについて知りたい場合は、IIIT-B&upGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。

箱ひげ図にはどのような種類のデータが描かれていますか?

箱ひげ図の視覚化は、記述統計で非常によく使用されます。 これは、探索的データ分析によく使用されるチャートの一種です。 四分位数(パーセンテージ)と平均を表示することにより、箱ひげ図は、数値データの分布とその歪度を視覚的に表現できます。

データセットの要約は、5つの異なるカテゴリの下で視覚的な形式の箱ひげ図の助けを借りて表示されます。 箱ひげ図によって提供されるデータは次のとおりです。

1.最低スコア
2.最初に、または下位四分位数と言うことができます
3.箱ひげ図の中央値3番目または上位四分位数と言うことができます
4.最高スコア

ここでのデータは、データを簡単に表現し、視覚的に非常に簡単に理解できるように、さまざまなセクションに分割されています。

箱ひげ図が役立つことがわかったのはなぜですか?

箱ひげ図の作業は、データセットをさまざまなセクションに分割することです。各セクションには、約25%のデータが含まれています。 箱ひげ図は、存在するデータの視覚的な要約を提供するため、非常に便利です。 これにより、研究者は平均値を簡単に識別し、歪度の兆候を見つけ、データセットの分散を知ることができます。

箱ひげ図は、統計データセットが歪んでいるか正規分布しているかを確認するための視覚的な画像を提供します。 正規分布の場合、中央値はボックスの中央にあり、ボックスは対称になります。 一方、ボックスは非対称になり、分布が歪んでいる場合、中央値はボックスの下部または上部に向かってなります。

パンダをデータの視覚化に利用できますか?

Pandasは、データサイエンスに関して、Python言語で最も役立つライブラリとして知られています。 Pandasは、データセットの操作、インポート、およびクリーニングに非常に役立つことがわかっています。 それ以外に、パンダはデータの視覚化にも広く利用されています。

データの視覚化では、パンダはさまざまな基本的なプロットをプロットするために使用されます。 このライブラリの機能は、時系列データの視覚化にも見られます。 簡単に言えば、単純なバー、カウントプロット、または線をプロットしたい場合は、データの視覚化にパンダを利用する必要があると言えます。