確率分布:説明された分布の種類

公開: 2020-12-16

目次

確率と確率分布の概要

確率分布を理解するために、まず確率とは何かを理解しましょう。 確率は、実験で発生するイベントの可能性の尺度です。 簡単に言えば、イベントが発生する可能性がどの程度あるかを示します。 イベントが発生する確率の値は、0(最も可能性が低い)から1(最も可能性が高い)の範囲です。

確率分布は、実験のさまざまな結果の確率を提供する関数です。 確率変数が取ることができる可能な値と、これらの値が発生する頻度を示します。

確率分布では、これらすべての確率の合計は常に1に集約されます。データサイエンスドメインでは、確率分布の使用法の1つは、信頼区間の計算と仮説テストの臨界領域の計算です。

連続的かつ離散的な分布

使用される確率分布のタイプは、変数に離散値が含まれるか連続値が含まれるかによって異なります。 離散分布は限られた値のセットしかとることができませんが、連続分布は指定された範囲内の任意の値をとることができます。

連続分布は、特定の範囲に無限の値が存在する可能性があり、各値の確率がゼロになるため、確率密度で表されます。 離散分布の場合、値の数が限られているため、各値の確率を取得できます。

分布の種類–離散分布

二項分布

これは、1回の試行での結果の数が2つしかないタイプの分布です。 各トライアルは別のトライアルから独立しています。 つまり、各試行の結果は他の試行の結果に影響を与えません。 この実験で行われる試行は互いに同一です。

したがって、成功と失敗の確率は、各試行で同じになります。 たとえば、試行の成功の確率が0.8(つまり、失敗の確率は0.2)の場合、残りの試行でも同じになります。

マルチ正規分布

これは、結果の数が2を超える可能性がある二項分布の一般化されたバージョンです。 この分布の他のプロパティは、二項分布のプロパティと同様です。 たとえば、公正なサイコロが振られた場合、これらの試行は互いに独立しているため、各結果の確率はすべての試行で同じになると考えてください。

ベルヌーイ分布

これは、二項分布のもう1つの変形です。 これは、実験で実行された試行回数が1(n = 1)である二項分布の特殊なケースです。 試行は1つしかないため、一般に成功の確率である1つのパラメーター(p)のみを使用して定義できます。

読む: Pythonでの二項分布

負の二項分布

負の二項分布の次の条件は、二項分布とは異なります。–

    • 実験で行われる試行回数は固定されていません。
    • 確率変数は、目的の成功数を達成するために必要な試行回数を示します。

二項分布の場合、確率変数は必要な成功の数です。つまり、失敗したトレイルの数に関係なく、成功の数のみに焦点を当てます。 ただし、負の二項分布の場合は、成功数を達成するために必要な試行回数に焦点が当てられます。つまり、失敗(負)の数も考慮されるため、負の二項分布と呼ばれます。

このプロセスは、必要な数の成功が達成されるまでのみ続行されます。 これにより、実験の試行回数は任意になります。 パスカル分布とも呼ばれます。

ポアソン分布

ポアソン分布は、同じ期間に発生したイベントの平均数がわかっている場合、特定の期間に発生するイベントの離散数の確率を提供します。 これらのイベントは独立して発生し、他のイベントには影響しません。 この分布を実装するために、発生率が一定期間にわたって一定であると想定しています。

離散一様分布

一様分布では、すべての結果の確率は等しくなります。 たとえば、公正なサイコロが振られた場合、1から6の範囲の結果の確率は等しくなると考えてください。 この分布の確率質量関数は1/nです。ここで、nは離散値の総数です。

分布の種類–連続分布

連続一様分布

分布の均一性は、連続値にも適用できます。 これは、確率分布が指定された範囲間で均一であることを示しています。 グラフにプロットしたときの形状から、一様分布とも呼ばれます。

正規分布

正規分布(ベルカーブとも呼ばれます)は、平均の両端から対称的な一種の連続分布です。 これは通常、サンプルの半分が平均の左側にあり、残りの半分が右側にあることを示しています。 正規分布の場合、平均、最頻値、および中央値は等しくなります。

正規分布データは通常、経験則に従います。 経験則は、標準偏差と平均の観点からデータの広がりを次のように示しています。

    • 確率変数が平均の1標準偏差内に収まる確率は68%です。
    • 確率変数が平均の2標準偏差内に収まる確率は95%です。
    • 確率変数が平均の3標準偏差内に収まる確率は99.7%です。

T –分布

正規分布にていますが、データの極値に向かう確率が高くなります。 これにより、平均から遠い値をとる可能性が高くなります。 グラフにプロットすると、曲線は正規分布曲線よりも短く太く見えます。

サンプル数が少ない場合に適しています。 サンプルのサイズが大きくなると、t分布曲線は正規分布曲線のように見え始めます。 正規分布とt分布の式は非常に複雑で計算に時間がかかるため、代わりにZスコアTスコアの値をそれぞれ計算します。

また読む:初心者のための13の興味深いデータ構造プロジェクトのアイデアとトピック

カイ二乗分布

カイ二乗分布は、正規分布から取得した確率変数の二乗和の分布です。 この分布で使用される自由度は、正規分布から取得された変数の数と同じです。 カイ二乗分布の平均は、自由度の数に等しくなります。

この分布は、信頼区間の計算や仮説検定で広く使用されています。 これは、ガンマ分布の特定のケースです また、観測された分布の適合度検定であるカイ2乗検定でも使用され、サンプルデータが母集団全体の適切な表現であるかどうかを示すのに役立ちます。

結論

この記事では、離散型および連続型の分布のいくつかの例の概要を説明しました。 これらの異なる分布は、異なる目的を果たすために使用され、それぞれに独自の仮定があります。

世界のトップ大学からMLコース学びましょう。 マスター、エグゼクティブPGP、または高度な証明書プログラムを取得して、キャリアを迅速に追跡します。

実際の状況では、これらの分布の仮定が満たされない可能性がありますが、これらの分布は組織にとって重要な決定を下すのに役立ちます。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

二項分布と正規分布の違いは何ですか?

二項分布では、任意の2つのデータポイント間にデータポイントはありません。 これは、離散データポイントを特徴とする正規分布とはまったく対照的です。 二項分布とは異なり、正規分布は離散的ではありません。 二項分布の出現回数は有限ですが、正規分布の出現回数は無限です。 それでも、サンプルサイズが十分に大きい場合、二項分布の形式は正規分布の形式に似ています。

二項分布とベルヌーイ分布の違いは何ですか?

イベントの単一の試行の結果はベルヌーイ分布によって処理されますが、単一のイベントの複数の試行の結果は二項分布によって処理されます。 イベントの結果が1回だけ必要な場合はベルヌーイ分布が適用されますが、結果が複数回必要な場合は二項分布が使用されます。

不確実性がある場合、確率分布をどのように使用できますか?

確率空間は、可能な結果のサンプル空間と各イベントの確率を推定する確率測度を含む、実験に関する不確実性の表現です。 不確実性分析では、矩形分布が最も広く使用されている確率分布です。 すべての結果は、一様分布で発生する可能性が等しくなります。 不確かさの要因を標準偏差に相当するものに変換するには、値を3の平方根で割る必要があります。