反復を伴うAnova2因子[比較あり]
公開: 2020-09-18目次
序章
分散分析またはAnovaは、略して、変数の分散を理解する手法です。 特定の変数が最終結果にどの程度影響するかを計算することができます。 Anova手法は、帰無仮説を排除または確認することによってこれを行います。 帰無仮説は、監視対象の2つのエンティティ間に関係がまったく存在しないことを意味します。 たとえば、2つの変数AとBがある場合、Aの変化がBの結果に影響を与えない場合、またはその逆の場合、AとBの間に帰無仮説が成り立つと言います。
反復を伴うAnova2因子の詳細に入る前に、まずAnovaの基本概念について説明しましょう。
概念
分散分析は統計の概念であり、数字がなければ統計は成り立ちません。 Anovaには、分析の開始時に提起する帰無仮説を分析できる特定の数が必要です。 この計算の3つの臨界値は、F比とF臨界であり、いくつかの重要な値があります。 ここでは、詳細な数学的計算についてはあまり説明しませんが、例を使用して概念的な部分について説明します。
特定の変数またはエンティティの重要性は、値をターゲット値への全体的な影響と比較することによって計算されます。 たとえば、Xのわずかな変更でもAの値の変更に影響を与える可能性がある場合、Xの重要性はAでより大きくなります。F比は、エンティティの平均二乗和と残差二乗和の平均によって計算されます。 平均二乗和は、平均二乗和を自由度で割ることによって計算されます。 自由度は、名義変数の可能なケースの数から1を引いたものです。
Fクリティカルは、有意値に基づいています。 F比は、上記のプロセスを通じて手動で計算されます。 仮説の妥当性は、F比とFクリティカルの値に依存します。 ケースは次のとおりです。
・Fクリティカル> F比の場合、仮説が成り立ち、観測中の変数間に関係はありません。
・Fクリティカル<F比の場合、仮説は無効であると宣言でき、変数が相互に影響を与えるという考えをサポートします。
読む:インドで最も高額なデータサイエンスの仕事トップ10
一方向と双方向の違い
前述のように、ここでは、反復を伴うAnova2因子の概念について説明します。 しかし、1要素と2要素の違いは正確には何ですか? Anova one-factorは、1つの名義変数のみを処理します(2つ以上のクラスまたはカテゴリーを持つ変数ですが、カテゴリーの順序は重要ではありません。たとえば、性別は、クラスが男性と女性の名義変数です)。
世界のトップ大学からデータサイエンス認定コースを学びましょう。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。
ただし、Anovaの2因子は、2つの名義変数を扱います。 変数が少ないため、両方のタイプの分析で帰無仮説の数にも変化があります。 二元配置分散分析の仮説は次のとおりです。
・1つの変数による観測の手段は同じです。 つまり、変数1はターゲット値にまったく影響しません。
・他の変数による観測の手段は同じです。 つまり、変数2はターゲット値にまったく影響しません。
・変数1と変数2の間に相互作用はありません。
一元配置分散分析には、帰無仮説と対立仮説があります。 まず、変数による平均が同じであり、次に、他の変数による平均が同じです。
より明確に理解するために、例を参考にしてみましょう。
例1
SID | 高ノイズ | SID | ミディアムノイズ | SID | 低ノイズ |
S1 | 23 | S5 | 23 | S9 | 39 |
S2 | 45 | S6 | 64 | S10 | 43 |
S3 | 34 | S7 | 73 | S11 | 26 |
S4 | 46 | S8 | 48 | S12 | 11 |
この表は、さまざまな範囲のノイズが存在する場合のさまざまな生徒のマークを示しています。 一元配置分散分析では、1つの名目変数のみが存在します。 ここで、名目変数はノイズです。 したがって、仮説は、ノイズが生徒の成績に大きな影響を与えるかどうかを確認しようとします。

別の表を見てみましょう。
学生 | 高ノイズ | ミディアムノイズ | 低ノイズ |
男 | 13 | 24 | 29 |
12 | 23 | 45 | |
11 | 32 | 33 | |
4 | 11 | 33 | |
女性 | 16 | 17 | 56 |
12 | 24 | 34 | |
8 | 23 | 23 | |
3 | 29 | 67 |
この表では、マークが生徒のカテゴリとともに表示されています。 したがって、2つの名目変数、学生の性別と騒音レベルがあります。 ここでは、3つの仮説を使用して行われる2因子分析があります。
しかし、今、複製を伴う分散分析の2因子とは正確には何を意味するのでしょうか。
また読む:データサイエンスプロジェクトのアイデア
レプリケーションありとレプリケーションなしの違い
反復ありと複製なしのAnova2因子の基本的な違いは、サンプルサイズが異なることです。 レプリケーションを使用する手法では、サンプルの総数はほぼ均一です。 その場合、平均は独立して計算されます。 このタイプのデータは、バランスデータとも呼ばれます。 ただし、サンプルサイズが均一でない場合、分析は困難です。 より高速な結果を得るには、サンプルサイズを均一にすることをお勧めします。
複製なしの手法では、サンプルの観測サイズは1です。 これは、名義変数の組み合わせごとに1つの観測値しかないことを意味します。 ここで、分析は、変数の平均と、すべての観測値を単一のクラスターと見なす合計平均を使用して実行できます。 F比は、剰余平均と合計平均によって計算できます。
チェックアウト:データサイエンスのためのトップ12のPythonライブラリ
結論
つまり、これがAnovaの2因子と反復の仕組みです。 統計にはそのような概念がたくさんあり、計算が難しいように見えますが、概念が明確であれば、物事はより単純になります。 Anovaの意味、概念、双方向Anova、および複製基準について説明しました。 この記事で、複製を使用したAnovaの2因子の動作について、自分で試すのに十分な詳細が提供されていることを願っています。
データサイエンスについて知りたい場合は、IIIT-B&upGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。
t検定はAnovaと同じですか?
t検定は、2つの母集団が統計的に異なるかどうかを調べますが、Anovaは、3つ以上の母集団が統計的に異なるかどうかを調べます。 2つのグループの平均を比較するために、t検定が使用されますが、3つ以上のグループの平均を比較する場合はAnovaが使用されます。 Anovaでは、最初のステップは共通のP値を見つけることです。 Anova検定の有意なP値は、少なくとも1つのペア間の平均差が統計的に有意であることを示します。
Anovaでは、帰無仮説をどのように受け入れたり拒否したりしますか?
典型的な解釈は、p値が有意水準よりも小さい場合にデータが統計的に有意であり、H 0を棄却するというものです。すべての平均が等しいわけではないことを識別するのに十分な情報がある場合、帰無仮説を棄却することがあります。一元配置分散分析で。
Anovaでは、F値をどのように解釈しますか?
Fの有意性は、回帰モデルの帰無仮説を棄却できない確率です。 言い換えると、回帰結果のすべての係数がゼロである確率を示しています。 2つの平均二乗値の差は、F比に相当します。 帰無仮説が正確である場合、ほとんどの場合、Fは1.0に近いはずです。 F比が高いということは、グループの平均分散が偶然に予想されるよりも高いことを意味します。