什麼是 P-Hacking 以及如何在 2022 年避免它?
已發表: 2021-01-02統計分析是數據科學和分析的重要組成部分。 統計學中最重要的概念之一是假設檢驗和 P 值。 解釋 P 值可能很棘手,您可能做錯了。 謹防 P-Hacking!
在本教程結束時,您將掌握以下知識:
- P 值
- 如何拒絕/接受假設
- 什麼是 P-Hacking 以及如何避免它
- 什麼是統計能力
讓我們潛入水中!
目錄
什麼是 P 值?
P 值評估樣本數據支持原假設為真的程度。 它衡量您的樣本數據在原假設下的正確程度。
在執行統計測試時,需要在開始測試之前設置閾值或 alpha。 它的一個常見值是 0.05,可以將其視為概率。 P 值被定義為獲得與 alpha 一樣罕見甚至更罕見的結果的概率。
因此,如果我們得到的 P 值小於該 alpha,則意味著我們的統計檢驗不是偶然發生的,而且確實很重要。 因此,如果我們的 P 值達到 0.04,我們就說我們拒絕零假設。
低 P 值表明您的樣本提供了足夠的證據表明您可以拒絕整個總體的原假設。 如果在我們的例子中你得到的 P 值小於 0.05,那麼你可以肯定地說可以拒絕原假設。 換句話說,您從人群中抽取的樣本並非純屬偶然,而且該實驗確實產生了顯著影響。
那麼會出什麼問題呢?
正如我們所說,獲得任何小於 alpha 的 P 值使我們可以安全地拒絕零假設,如果我們的實驗本身沒有顯示正確的圖片,我們可能會犯錯誤! 換句話說,它可能是誤報。
什麼是 P-Hacking?
當我們錯誤地利用統計分析並錯誤地得出可以拒絕原假設的結論時,我們說我們 P-Hacked。 讓我們詳細了解一下。
# 破解 1
考慮到我們有 5 種冠狀病毒候選疫苗,我們需要檢查哪一種對患者的康復時間有實際影響。 因此,假設我們對所有 5 種疫苗一一進行假設檢驗。 我們將 alpha 設置為 0.05。 因此,如果任何疫苗的 P 值低於此值,我們說我們可以拒絕零假設。或者我們可以嗎?
示例 1
比如說,疫苗 A 給出的 P 值為 0.2,疫苗 B 給出 0.058,疫苗 C 給出 0.4,疫苗 D 給出 0.02,疫苗 E 給出 0.07。
現在,根據上述結果,一種天真的方法可以推斷出疫苗 D 是可以顯著縮短恢復時間的疫苗,可以用作冠狀病毒疫苗。 但我們真的可以這麼說嗎? 不,如果我們這樣做,我們可能是 P-Hacking。 因為這可能是誤報。
示例 2
好吧,讓我們換一種方式。 考慮到我們有一個疫苗 X,我們肯定知道這種疫苗是無用的,對恢復時間沒有影響。 我們仍然每次使用不同的隨機樣本進行 10 次假設檢驗,P 值為 0.05。 假設我們在 10 次測試中得到以下 P 值: 0.8、0.7、0.78、0.65、0.03、0.1、0.4、0.09、0.6、0.75 。 現在,如果我們必須考慮上述檢驗,具有 0.03 的低 P 值的檢驗會使我們拒絕零假設,但實際上並非如此。

那麼我們從上面的例子中看到了什麼? 本質上,當我們說 alpha = 0.05 時,我們設置了 95% 的置信區間。 這意味著 5% 的測試仍然會導致上述錯誤。
多重測試問題
解決這個問題的一種方法是增加測試的數量。 所以更多的測試,你可以更容易地說最大數量的測試導致拒絕 Null。 而且,更多的測試將意味著會有更多的誤報(在我們的案例中佔總測試的 5%)。 100 人中有 5 人、1000 人中有 50 人或 10,000 人中有 500 人! 這也稱為多重測試問題。
錯誤發現率
解決上述問題的方法之一是使用一種稱為錯誤發現率(FDR) 的機制來調整所有 P 值。 FDR 是對 P 值的數學調整,它將它們增加了一些值,最後,錯誤地降低的 P 值可能會被調整為高於 0.05 的值。
學習:數據科學家的 8 項重要技能
# 破解 2
現在考慮一個例子,其中疫苗 B 的 P 值為 0.058。 您是否不想添加更多數據並重新測試以查看 P 值是否降低? 假設您添加了更多數據點,疫苗 B 的 P 值為 0.048。 這是合法的嗎? 不,你會再次成為 P-Hacking。 我們以後無法更改或添加數據以適應我們的測試,並且需要在執行測試之前通過執行功率分析來確定確切的樣本量。
功效分析告訴我們正確的樣本量,我們需要有最大的機會正確拒絕原假設並且不被愚弄。
# 破解 3
您不應該犯的另一個錯誤是在執行實驗後更改 alpha。 所以一旦你看到 P 值為 0.058,你會想如果我的 alpha 是 0.06 會怎樣?
但是一旦你的實驗開始,你就不能改變它。
必讀:如何成為數據科學家?
在你走之前
假設檢驗和 P 值是一個棘手的主題,在進行任何推斷之前需要仔細理解。 統計功效和功效分析是其中重要的一部分,在開始測試之前需要牢記這一點。
如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑,該文憑專為在職專業人士而設,提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流,400 多個小時的學習和頂級公司的工作協助。
您對 P-Hacking 的理解是什麼?
P-Hacking 或數據挖掘是一種濫用數據分析技術來查找數據中看似重要但實際上並不重要的模式的方法。 這種方法對研究產生負面影響,因為它提供了提供重要數據模式的虛假承諾,這反過來又會導致誤報數量急劇增加。
P-hacking 無法完全防止,但有一些方法可以肯定地減少它並幫助避免陷阱。
為了避免 p-hacking,我應該記住什麼?
您可以使用一些安全做法來最大限度地減少 p-hacking 的實例。 您可以先制定詳細的測試計劃,然後在網上註冊。 您必須確保允許首先執行完整的測試,並且即使達到所需的 p 值,也不會在兩者之間中斷。
除了這些措施之外,您還可以確保從高質量的數據集開始,以避免出錯的機會。 所有這些安全措施一定會幫助您在很大程度上避免數據挖掘。
什麼是錯誤發現率?
這是解決 p-hacking 問題的最先進方法之一。 此方法允許您調整每個測試的 p 值。 與其他方法不同,它不會減少假陽性結果,而是發現它們。 這使得它比 Bonferroni 校正等其他方法更重要,並且在找到重要結果方面更準確。
這些調整後的 p 值也稱為 q 值。 這種 FDR 方法還有其他版本,例如優化的 FDR 方法。