什么是 P-Hacking 以及如何在 2022 年避免它？

已发表: 2021-01-02

统计分析是数据科学和分析的重要组成部分。统计学中最重要的概念之一是假设检验和 P 值。解释 P 值可能很棘手，您可能做错了。谨防 P-Hacking！

在本教程结束时，您将掌握以下知识：

P 值
如何拒绝/接受假设
什么是 P-Hacking 以及如何避免它
什么是统计能力

让我们潜入水中！

什么是 P 值？

P 值评估样本数据支持原假设为真的程度。它衡量您的样本数据在原假设下的正确程度。

在执行统计测试时，需要在开始测试之前设置阈值或 alpha。它的一个常见值是 0.05，可以将其视为概率。 P 值被定义为获得与 alpha 一样罕见甚至更罕见的结果的概率。

因此，如果我们得到的 P 值小于该 alpha，则意味着我们的统计检验不是偶然发生的，而且确实很重要。因此，如果我们的 P 值达到 0.04，我们就说我们拒绝零假设。

低 P 值表明您的样本提供了足够的证据表明您可以拒绝整个总体的原假设。如果在我们的例子中你得到的 P 值小于 0.05，那么你可以肯定地说可以拒绝原假设。换句话说，您从人群中抽取的样本并非纯属偶然，而且该实验确实产生了显着影响。

那么会出什么问题呢？

正如我们所说，获得任何小于 alpha 的 P 值使我们可以安全地拒绝零假设，如果我们的实验本身没有显示正确的图片，我们可能会犯错误！换句话说，它可能是误报。

什么是 P-Hacking？

当我们错误地利用统计分析并错误地得出可以拒绝原假设的结论时，我们说我们 P-Hacked。让我们详细了解一下。

# 破解 1

考虑到我们有 5 种冠状病毒候选疫苗，我们需要检查哪一种对患者的康复时间有实际影响。因此，假设我们对所有 5 种疫苗一一进行假设检验。我们将 alpha 设置为 0.05。因此，如果任何疫苗的 P 值低于此值，我们说我们可以拒绝零假设。或者我们可以吗？

示例 1

比如说，疫苗 A 给出的 P 值为 0.2，疫苗 B 给出 0.058，疫苗 C 给出 0.4，疫苗 D 给出 0.02，疫苗 E 给出 0.07。

现在，根据上述结果，一种天真的方法可以推断出疫苗 D 是可以显着缩短恢复时间的疫苗，可以用作冠状病毒疫苗。但我们真的可以这么说吗？不，如果我们这样做，我们可能是 P-Hacking。因为这可能是误报。

示例 2

好吧，让我们换一种方式。考虑到我们有一个疫苗 X，我们肯定知道这种疫苗是无用的，对恢复时间没有影响。我们仍然每次使用不同的随机样本进行 10 次假设检验，P 值为 0.05。假设我们在 10 次测试中得到以下 P 值： 0.8、0.7、0.78、0.65、0.03、0.1、0.4、0.09、0.6、0.75 。 现在，如果我们必须考虑上述检验，具有 0.03 的低 P 值的检验会使我们拒绝零假设，但实际上并非如此。

那么我们从上面的例子中看到了什么？本质上，当我们说 alpha = 0.05 时，我们设置了 95% 的置信区间。这意味着 5% 的测试仍然会导致上述错误。

多重测试问题

解决这个问题的一种方法是增加测试的数量。所以更多的测试，你可以更容易地说最大数量的测试导致拒绝 Null。而且，更多的测试将意味着会有更多的误报（在我们的案例中占总测试的 5%）。 100 人中有 5 人、1000 人中有 50 人或 10,000 人中有 500 人！这也称为多重测试问题。

错误发现率

解决上述问题的方法之一是使用一种称为错误发现率(FDR) 的机制来调整所有 P 值。 FDR 是对 P 值的数学调整，它将它们增加了一些值，最后，错误地降低的 P 值可能会被调整为高于 0.05 的值。

学习：数据科学家的 8 项重要技能

# 破解 2

现在考虑一个例子，其中疫苗 B 的 P 值为 0.058。您是否不想添加更多数据并重新测试以查看 P 值是否降低？假设您添加了更多数据点，疫苗 B 的 P 值为 0.048。这是合法的吗？不，你会再次成为 P-Hacking。我们以后无法更改或添加数据以适应我们的测试，并且需要在执行测试之前通过执行功率分析来确定确切的样本量。

功效分析告诉我们正确的样本量，我们需要有最大的机会正确拒绝原假设并且不被愚弄。

# 破解 3

您不应该犯的另一个错误是在执行实验后更改 alpha。所以一旦你看到 P 值为 0.058，你会想如果我的 alpha 是 0.06 会怎样？

但是一旦你的实验开始，你就不能改变它。

必读：如何成为数据科学家？

在你走之前

假设检验和 P 值是一个棘手的主题，在进行任何推断之前需要仔细理解。统计功效和功效分析是其中重要的一部分，在开始测试之前需要牢记这一点。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭，该文凭专为在职专业人士而设，提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流，400 多个小时的学习和顶级公司的工作协助。

您对 P-Hacking 的理解是什么？

P-Hacking 或数据挖掘是一种滥用数据分析技术来查找数据中看似重要但实际上并不重要的模式的方法。这种方法对研究产生负面影响，因为它提供了提供重要数据模式的虚假承诺，这反过来又会导致误报数量急剧增加。

P-hacking 无法完全防止，但有一些方法可以肯定地减少它并帮助避免陷阱。

为了避免 p-hacking，我应该记住什么？

您可以使用一些安全做法来最大限度地减少 p-hacking 的实例。您可以先制定详细的测试计划，然后在网上注册。您必须确保允许首先执行完整的测试，并且即使达到所需的 p 值，也不会在两者之间中断。

除了这些措施之外，您还可以确保从高质量的数据集开始，以避免出错的机会。所有这些安全措施一定会帮助您在很大程度上避免数据挖掘。

什么是错误发现率？

这是解决 p-hacking 问题的最先进方法之一。此方法允许您调整每个测试的 p 值。与其他方法不同，它不会减少假阳性结果，而是发现它们。这使得它比 Bonferroni 校正等其他方法更重要，并且在找到重要结果方面更准确。

这些调整后的 p 值也称为 q 值。这种 FDR 方法还有其他版本，例如优化的 FDR 方法。