Что такое P-Hacking и как его избежать в 2022 году?

Опубликовано: 2021-01-02

Статистический анализ является неотъемлемой частью науки о данных и анализа. Одним из наиболее важных понятий в статистике является проверка гипотез и P-значения. Интерпретация P-значения может быть сложной, и вы можете делать это неправильно. Остерегайтесь P-Hacking!

К концу этого урока вы будете иметь следующие знания:

P-значения
Как отвергнуть/принять гипотезу
Что такое P-Hacking и как его избежать
Что такое статистическая мощность

Давайте погрузимся прямо в!

Оглавление

Что такое P-значения?
Что такое P-взлом?
- # Взлом 1
  - Пример 1
  - Пример 2
  - Проблема множественного тестирования
  - Ложная скорость обнаружения
- # Взлом 2
- # Взлом 3
Прежде чем ты уйдешь
Что вы понимаете под P-Hacking?
Что я должен иметь в виду, чтобы избежать взлома?
Что такое ложная скорость обнаружения?

Что такое P-значения?

P-значения оценивают, насколько хорошо данные выборки подтверждают, что нулевая гипотеза верна. Он измеряет, насколько верны ваши выборочные данные с нулевой гипотезой.

При выполнении статистических тестов перед началом теста необходимо установить пороговое значение или альфа-канал. Обычное значение для него составляет 0,05, что можно рассматривать как вероятность. P-значения определяются как вероятность получения такого же редкого результата, как эта альфа, или даже еще реже.

Следовательно, если мы получим наше P-значение меньше, чем эта альфа, это будет означать, что наш статистический тест не был случайным, и он действительно был значимым. Итак, если наше P-значение достигает, скажем, 0,04, мы говорим, что отвергаем нулевую гипотезу.

Низкое значение P предполагает, что ваша выборка предоставляет достаточно доказательств, чтобы вы могли отвергнуть нулевую гипотезу для всей совокупности. Если в нашем случае вы получили значение P меньше 0,05, то можно с уверенностью сказать, что нулевую гипотезу можно отвергнуть. Другими словами, выборка, которую вы взяли из популяции, не появилась случайно, и эксперимент действительно оказал значительное влияние.

Так что же может пойти не так?

Поскольку мы говорим, что получение любого P-значения, меньшего, чем альфа, дает нам свободу безопасно отвергнуть нулевую гипотезу, мы можем совершить ошибку, если наш эксперимент сам по себе не показывает правильную картину! Другими словами, это может быть ложное срабатывание.

Что такое P-взлом?

Мы говорим, что мы P-Hacked, когда неправильно используем статистический анализ и делаем ложный вывод, что можем отвергнуть нулевую гипотезу. Давайте разберемся в этом подробно.

# Взлом 1

Учтите, что у нас есть 5 типов вакцин-кандидатов от коронавируса, для которых нам нужно проверить, какая из них действительно влияет на время выздоровления пациентов. Допустим, мы проводим тесты гипотез для всех 5 типов вакцин один за другим. Мы устанавливаем альфа как 0,05. И, следовательно, если P-значение для какой-либо вакцины меньше этого значения, мы говорим, что можем отвергнуть нулевую гипотезу. Или можем?

Пример 1

Скажем, вакцина А дает значение Р, равное 0,2, вакцина В дает 0,058, вакцина С дает 0,4, вакцина D дает 0,02, вакцина Е дает 0,07.

Теперь, исходя из приведенных выше результатов, наивный способ сделать вывод будет заключаться в том, что вакцина D значительно сокращает время восстановления и может использоваться в качестве вакцины против коронавируса. Но можем ли мы действительно сказать это прямо сейчас? Нет. Если мы это сделаем, мы можем быть P-Hacking. Так как это может быть ложным срабатыванием.

Пример 2

Хорошо, давайте по-другому. Представьте, что у нас есть вакцина X, и мы точно знаем, что эта вакцина бесполезна и не влияет на время выздоровления. Тем не менее мы проводим 10 проверок гипотез по разным случайным выборкам каждый раз с P-значением 0,05. Скажем, мы получили следующие значения P в наших 10 тестах: 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Теперь, если бы нам пришлось рассмотреть приведенные выше тесты, тест с удивительно низким P-значением 0,03 заставил бы нас отвергнуть нулевую гипотезу, но на самом деле это не так.

Итак, что мы видим из приведенных выше примеров? По сути, когда мы говорим, что альфа = 0,05, мы устанавливаем доверительный интервал 95%. А это значит, что 5% тестов все равно будут приводить к ошибкам, как указано выше.

Проблема множественного тестирования

Одним из способов решения этой проблемы было бы увеличение количества тестов. Таким образом, чем больше тестов, тем легче вы можете сказать, что максимальное количество тестов приводит к отклонению Null. Но кроме того, чем больше тестов, тем больше ложных срабатываний (в нашем случае 5% от общего числа тестов). 5 из 100, 50 из 1000 или 500 из 10 000! Это также называется проблемой множественного тестирования .

Ложная скорость обнаружения

Один из способов решения вышеуказанных проблем — скорректировать все P-значения с помощью механизма, называемого False Discovery Rate (FDR). FDR — это математическая корректировка P-значений, которая увеличивает их на некоторые значения, и, в конце концов, P-значения, которые ошибочно оказались ниже, могут быть скорректированы до значений выше 0,05.

Узнайте : 8 важных навыков для специалистов по данным

# Взлом 2

Теперь рассмотрим случай из примера, когда вакцина В дала значение P 0,058. Разве у вас не возникло бы искушения добавить еще немного данных и провести повторное тестирование, чтобы увидеть, уменьшается ли P-значение? Скажем, вы добавили еще несколько точек данных, и P-значение для вакцины B стало равным 0,048. Это законно? Нет, вы снова будете P-Hacking. Мы не можем изменить или добавить данные для наших тестов позже, и точный размер выборки должен быть определен до выполнения тестов путем анализа мощности .

Анализ мощности сообщает нам правильный размер выборки, который нам нужен, чтобы иметь максимальные шансы правильно отвергнуть нулевую гипотезу и не попасть впросак.

# Взлом 3

Еще одна ошибка, которую вы не должны делать, это менять альфу после проведения экспериментов. Итак, когда вы видите P-значение 0,058, вы думаете, что, если бы моя альфа была 0,06?

Но вы не можете изменить его после начала эксперимента.

Обязательно прочтите : Как стать специалистом по данным?

Прежде чем ты уйдешь

Проверка гипотез и P-значения — сложная тема, и ее необходимо тщательно понять, прежде чем делать какие-либо выводы. Статистическая мощность и анализ мощности являются важной частью этого, о чем необходимо помнить перед началом тестов.

Если вам интересно узнать о науке о данных, ознакомьтесь с дипломом IIIT-B & upGrad PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Что вы понимаете под P-Hacking?

P-Hacking или Data Dredging — это метод неправильного использования методов анализа данных для поиска закономерностей в данных, которые кажутся значимыми, но не являются таковыми. Этот метод негативно влияет на исследование, так как дает ложные обещания предоставить важные шаблоны данных, что, в свою очередь, может привести к резкому увеличению количества ложных срабатываний.

P-взлом нельзя полностью предотвратить, но есть несколько методов, которые наверняка уменьшат его и помогут избежать ловушки.

Что я должен иметь в виду, чтобы избежать взлома?

Вы можете использовать некоторые безопасные методы, чтобы свести к минимуму случаи взлома. Вы можете сначала составить подробный план тестов, которые необходимо провести, а затем зарегистрировать его в онлайн-реестре. Вы должны убедиться, что сначала выполняется полный тест, а не прерывается между ними, даже если достигается требуемое значение p.

Помимо этих мер, вы также можете начать с высококачественного набора данных, чтобы избежать ошибок. Все эти меры безопасности, безусловно, помогут вам в значительной степени избежать выемки данных.

Что такое ложная скорость обнаружения?

Это один из самых передовых подходов к решению проблем, связанных с p-взломом. Этот метод позволяет корректировать p-значения для каждого теста. В отличие от других методов, он не уменьшает количество ложноположительных результатов, а обнаруживает их. Это делает его более значимым, чем другие методы, такие как коррекция Бонферрони, и более точным в получении значимых результатов.

Эти скорректированные значения p также известны как значения q. Существуют и другие версии этого подхода FDR, такие как оптимизированный подход FDR.