Pハッキングとは何ですか?2022年にそれを回避する方法は?
公開: 2021-01-02統計分析は、データサイエンスと分析の重要な部分です。 統計における最も重要な概念の1つは、仮説検定とP値です。 P値の解釈は難しい場合があり、間違っている可能性があります。 Pハッキングに注意してください!
このチュートリアルを終了するまでに、以下の知識が得られます。
- P値
- 仮説を拒否/受け入れる方法
- P-ハッキングとは何ですか?それを回避する方法
- 統計的検出力とは
さっそく飛び込みましょう!
目次
P値とは何ですか?
P値は、帰無仮説が真であることをサンプルデータがどの程度サポートしているかを評価します。 これは、帰無仮説を使用してサンプルデータがどれだけ正しいかを測定します。
統計的検定の実行中は、検定を開始する前にしきい値またはアルファを設定する必要があります。 一般的な値は0.05で、これは確率と考えることができます。 P値は、そのアルファと同じくらい、またはさらにまれな結果が得られる確率として定義されます。
したがって、P値がそのアルファよりも小さい場合、それは統計的検定が偶然に発生したのではなく、実際に有意であったことを意味します。 したがって、P値がたとえば0.04になると、帰無仮説を棄却すると言います。
P値が低いということは、サンプルが母集団全体の帰無仮説を棄却できる十分な証拠を提供していることを示しています。 この場合、0.05未満のP値を取得した場合は、帰無仮説を棄却できると安全に言うことができます。 言い換えれば、母集団から取得したサンプルは偶然ではなく、実験は確かに大きな効果をもたらしました。
では、何がうまくいかないのでしょうか?
アルファ未満のP値を取得すると、帰無仮説を安全に棄却する自由が得られると言うので、実験自体が正しい画像を示していない場合は、間違いを犯している可能性があります。 言い換えれば、それは誤検知である可能性があります。
P-ハッキングとは何ですか?
統計分析を誤って悪用し、帰無仮説を棄却できると誤って結論付けた場合、Pハッキングされたと言います。 これを詳しく理解しましょう。
#ハック1
5種類のコロナウイルス候補ワクチンがあり、どれが患者の回復時間に実際に影響を与えるかを確認する必要があると考えてください。 それで、5種類のワクチンすべてに対して1つずつ仮説検定を行うとしましょう。 アルファを0.05に設定します。 したがって、ワクチンのP値がそれよりも小さい場合は、帰無仮説を棄却できると言います。
例1
たとえば、ワクチンAのP値は0.2、ワクチンBの値は0.058、ワクチンCの値は0.4、ワクチンDの値は0.02、ワクチンEの値は0.07です。
さて、上記の結果から、ワクチンDは回復時間を大幅に短縮し、コロナウイルスワクチンとして使用できるという素朴な方法が推測されます。 しかし、私たちは本当にまだそれを言うことができますか? いいえ。そうすると、Pハッキングになる可能性があります。 これは誤検知である可能性があるためです。
例2
さて、別の方法で見てみましょう。 私たちがワクチンXを持っていると考えてください。このワクチンは役に立たず、回復時間に影響を与えないことは確かです。 それでも、P値が0.05の場合、毎回異なるランダムサンプルで10回の仮説検定を実行します。 10回のテストで次のP値が得られたとします: 0.8、0.7、0.78、0.65、0.03、0.1、0.4、0.09、0.6、0.75 。 上記のテストを検討する必要がある場合、P値が0.03と驚くほど低いテストでは、帰無仮説を棄却することになりますが、実際にはそうではありませんでした。

では、上記の例から何がわかりますか? 本質的に、alpha = 0.05と言うとき、95%の信頼区間を設定します。 これは、テストの5%でも上記のようなエラーが発生することを意味します。
多重検定の問題
これに取り組む1つの方法は、テストの数を増やすことです。 したがって、テストが多ければ多いほど、テストの最大数がNullの拒否につながると簡単に言うことができます。 ただし、テストが増えると、誤検知が増えることになります(この場合はテスト全体の5%)。 100のうち5、1000のうち50、または10,000のうち500! これは、多重検定問題とも呼ばれます。
偽発見率
上記の問題に取り組む方法の1つは、偽発見率(FDR)と呼ばれるメカニズムを使用してすべてのP値を調整することです。 FDRは、P値を数学的に調整したものであり、いくつかの値だけ増加します。最終的に、誤って低くなったP値は、0.05よりも高い値に調整される可能性があります。
学ぶ:データサイエンティストのための8つの重要なスキル
#ハック2
ここで、ワクチンBが0.058のP値を与えた例のケースを考えてみましょう。 さらにデータを追加して、P値が減少するかどうかを確認するために再テストしたいと思いませんか? たとえば、さらにいくつかのデータポイントを追加すると、ワクチンBのP値は0.048になります。 これは合法ですか? いいえ、あなたは再びP-Hackingになります。 後でテストに合わせてデータを変更または追加することはできません。正確なサンプルサイズは、検出力分析を実行してテストを実行する前に決定する必要があります。
検出力分析は、帰無仮説を正しく棄却し、だまされない可能性を最大にするために必要な適切なサンプルサイズを示します。
#ハック3
してはいけないもう1つの間違いは、実験の実行後にアルファを変更することです。 したがって、0.058のP値を確認したら、私のアルファが0.06だったとしたらどうなるでしょうか。
ただし、実験が開始されると変更することはできません。
必読:データサイエンティストになる方法は?
行く前に
仮説検定とP値は注意が必要なテーマであり、控除を行う前に注意深く理解する必要があります。 統計的検出力と検出力分析はこの重要な部分であり、テストを開始する前に留意する必要があります。
データサイエンスについて知りたい場合は、IIIT-BとupGradのデータサイエンスのPGディプロマをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、1- on-1業界のメンター、400時間以上の学習、トップ企業との仕事の支援。
P-Hackingで何がわかりますか?
P-ハッキングまたはデータドレッジングは、データ分析手法を悪用して、重要であるように見えるが重要ではないデータのパターンを見つける方法です。 この方法は、重要なデータパターンを提供するという誤った約束を与えるため、調査に悪影響を及ぼします。これにより、誤検知の数が大幅に増加する可能性があります。
Pハッキングを完全に防ぐことはできませんが、確実にそれを減らし、トラップを回避するのに役立ついくつかの方法があります。
p-hackingを避けるために何を心に留めておくべきですか?
いくつかの安全な方法を使用して、p-hackingのインスタンスを最小限に抑えることができます。 最初に実行するテストの詳細な計画を立ててから、オンラインでレジストリに登録できます。 必要なp値が達成された場合でも、最初に完全なテストを実行し、その間に中断しないようにする必要があります。
これらの対策とは別に、エラーの可能性を回避するために、高品質のデータセットから始めることもできます。 これらすべての安全対策は、データの浚渫を大幅に回避するのに確実に役立ちます。
偽発見率とは何ですか?
これは、p-hackingに関する問題を解決するための最も高度なアプローチの1つです。 この方法では、各テストのp値を調整できます。 他の方法とは異なり、誤検知の結果を減らすのではなく、それらを検出します。 これにより、ボンフェローニ補正などの他の方法よりも重要になり、重要な結果をより正確に見つけることができます。
これらの調整されたp値は、q値とも呼ばれます。 最適化されたFDRアプローチのような、このFDRアプローチの他のバージョンがあります。