具有復制的 Anova 二因子 [帶比較]
已發表: 2020-09-18目錄
介紹
簡而言之,方差分析或方差分析是一種理解變量方差的技術。 它可以計算特定變量對最終結果的影響程度。 方差分析技術通過消除或確認零假設來做到這一點。 零假設意味著被觀察的兩個實體之間根本不存在任何關係。 例如,如果有兩個變量 A 和 B,我們說如果 A 的變化不會影響 B 的結果,則 A 和 B 之間的原假設成立,反之亦然。
在詳細介紹Anova two-factor with replication之前,讓我們首先討論 Anova 的基本概念。
概念
方差分析是一個統計概念,沒有數字就沒有統計數據。 Anova 需要一定的數字,通過它可以分析我們在分析開始時提出的零假設。 此計算的三個臨界值是 F 比率和 F 臨界值,具有一些顯著性值。 現在在這裡我們不會深入討論詳細的數學計算,但我們將通過示例解決概念部分。
通過將值與對目標值的總體影響進行比較來計算特定變量或實體的重要性。 例如,如果 X 的微小變化也會影響 A 的值,那麼 X 對 A 的重要性會更大。F 比率由實體的平均平方和和殘差平方的平均和計算。 通過將均方和除以自由度來計算均方和。 自由度是名義變量的可能情況數減一。
F critical 基於顯著性值。 F 比率是通過上述過程手動計算的。 假設的有效性取決於 F 比率和 F 臨界值。 以下是案例:
· 如果 F-critical > F ratio,那麼假設成立,並且觀察變量之間沒有關係
· 如果 F-critical < F 比率,則可以宣布假設無效,進而支持變量相互影響的觀點。
閱讀:印度薪酬最高的 10 大數據科學工作
單向和雙向的區別
如前所述,在這裡,我們討論了Anova two-factor with replication的概念。 但是,一因素和二因素究竟有什麼區別? Anova one-factor 僅處理一個名義變量(具有兩個或多個類別或類別的變量,但類別的順序並不重要。例如,性別是具有男性和女性類別的名義變量)。
學習世界頂尖大學的數據科學認證課程。 獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
但是,Anova 雙因子處理兩個名義變量。 由於變量較少,兩種分析類型中的零假設的數量也發生了變化。 雙向方差分析中的假設如下:
· 一個變量的觀察手段是一樣的。 意思是,變量一不會以任何方式影響目標值。
· 其他變量的觀察手段相同。 意思是,變量二不會以任何方式影響目標值。
· 變量一和變量二之間沒有交互作用。
在單向方差分析中,存在原假設和備擇假設。 首先,變量的均值相同,其次,另一個變量的均值相同。
為了更清楚地理解,讓我們藉助一個例子。
示例 #1
SID | 高噪音 | SID | 中等噪音 | SID | 低噪聲 |
S1 | 23 | S5 | 23 | S9 | 39 |
S2 | 45 | S6 | 64 | S10 | 43 |
S3 | 34 | S7 | 73 | S11 | 26 |
S4 | 46 | S8 | 48 | S12 | 11 |
該表顯示了不同學生在存在不同範圍的噪音時的分數。 在單向方差分析中,只有一個名義變量。 這裡,名義變量是噪聲。 因此,該假設將嘗試檢查噪音是否對學生的成績有顯著影響。

讓我們再來一張桌子:
學生 | 高噪音 | 中等噪音 | 低噪聲 |
男性 | 13 | 24 | 29 |
12 | 23 | 45 | |
11 | 32 | 33 | |
4 | 11 | 33 | |
女性 | 16 | 17 | 56 |
12 | 24 | 34 | |
8 | 23 | 23 | |
3 | 29 | 67 |
現在在此表中,分數與學生類別一起顯示。 因此,我們有兩個名義變量,學生的性別和噪音水平。 在這裡,可以進行兩因素分析,這將使用三個假設來完成。
但是現在Anova two-factor with replication到底是什麼意思?
另請閱讀:數據科學項目理念
有復制和無復制的區別
具有復制和不復制的 Anova 雙因子之間的根本區別在於樣本量不同。 在具有復制的技術中,樣本總數大多是均勻的。 如果是這種情況,則獨立計算均值。 這種類型的數據也稱為平衡數據。 但如果樣本量不統一,分析就很困難。 最好使樣本大小一致以獲得更快的結果。
在沒有復制的技術中,樣本觀察量為 1。 這意味著對於名義變量的每個組合只有一個觀察值。 在這裡,可以使用變量的均值以及將每個觀測值視為單個聚類的總均值來完成分析。 然後可以通過餘數平均值和總平均值計算 F 比。
查看:用於數據科學的 12 大 Python 庫
結論
因此,這就是帶複製的 Anova 雙因子的工作原理。 統計中有許多這樣的概念,計算似乎很困難,但如果概念清晰,事情就會變得更簡單。 我們討論了 Anova 的含義、概念、雙向 Anova 和復制標準。 我們希望這篇文章提供了足夠多的關於Anova 兩因素複製工作的詳細信息,供您自己嘗試。
如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃是為在職專業人士創建的,提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1與行業導師一對一,400 多個小時的學習和頂級公司的工作協助。
t 檢驗與 Anova 相同嗎?
t 檢驗檢查兩個總體是否在統計上不同,而方差分析則檢驗三個或更多總體在統計上是否不同。 為了比較兩組的平均值,使用 t 檢驗,但在比較三組或更多組的平均值時使用 Anova。 在 Anova 中,第一步是找到一個共同的 P 值。 Anova 檢驗中的顯著 P 值表明至少一對之間的平均差異具有統計學意義。
在 Anova 中,您如何接受或拒絕原假設?
典型的解釋是當 p 值小於顯著性水平時數據具有統計顯著性,並且您拒絕 H 0。當有足夠的信息可以確定並非所有均值都相等時,我們可能會拒絕原假設在單向方差分析。
在 Anova 中,您如何解釋 F 值?
F 的顯著性是回歸模型的原假設不能被拒絕的概率。 換句話說,它表示回歸結果中所有係數都為零的概率! 兩個均方值之差相當於 F 比。 如果原假設準確,則 F 在絕大多數情況下應該接近 1.0。 高 F 比率意味著組平均方差高於偶然預期的值。