Was ist P-Hacking und wie kann man es 2022 vermeiden?

Veröffentlicht: 2021-01-02

Die statistische Analyse ist ein wesentlicher Bestandteil der Datenwissenschaft und -analyse. Eines der wichtigsten Konzepte in der Statistik sind Hypothesentests und P-Werte. Das Interpretieren des P-Werts kann schwierig sein, und Sie machen es möglicherweise falsch. Vorsicht vor P-Hacking!

Am Ende dieses Tutorials haben Sie folgende Kenntnisse:

  • P-Werte
  • Wie man Hypothesen ablehnt/akzeptiert
  • Was ist P-Hacking und wie kann man es vermeiden?
  • Was ist Statistische Power

Lass uns gleich eintauchen!

Inhaltsverzeichnis

Was sind P-Werte?

P-Werte bewerten, wie gut die Stichprobendaten dafür sprechen, dass die Nullhypothese wahr ist. Es misst, wie korrekt Ihre Beispieldaten mit der Nullhypothese sind.

Bei der Durchführung statistischer Tests muss vor Beginn des Tests ein Schwellenwert oder das Alpha festgelegt werden. Ein gängiger Wert dafür ist 0,05, was man sich als Wahrscheinlichkeit vorstellen kann. P-Werte sind definiert als die Wahrscheinlichkeit, dass das Ergebnis so selten wie dieses Alpha oder noch seltener ist.

Wenn wir also unseren P-Wert unter diesem Alpha erhalten, würde das bedeuten, dass unser statistischer Test nicht zufällig zustande kam und tatsächlich signifikant war. Wenn also unser P-Wert beispielsweise 0,04 beträgt, sagen wir, dass wir die Nullhypothese ablehnen.

Ein niedriger P-Wert deutet darauf hin, dass Ihre Stichprobe genügend Beweise dafür liefert, dass Sie die Nullhypothese für die gesamte Grundgesamtheit ablehnen können. Wenn Sie in unserem Fall einen P-Wert von weniger als 0,05 erhalten, können Sie mit Sicherheit sagen, dass die Nullhypothese abgelehnt werden kann. Mit anderen Worten, die Probe, die Sie der Bevölkerung entnommen haben, ist nicht zufällig entstanden, und das Experiment hatte tatsächlich einen signifikanten Effekt.

Was kann also schief gehen?

Da wir sagen, dass jeder P-Wert von weniger als Alpha uns die Freiheit gibt, die Nullhypothese sicher abzulehnen, könnten wir einen Fehler machen, wenn unser Experiment selbst nicht das richtige Bild zeigt! Mit anderen Worten, es könnte ein falsch positives Ergebnis sein.

Was ist P-Hacking?

Wir sagen, dass wir P-gehackt haben, wenn wir die statistische Analyse falsch ausnutzen und fälschlicherweise schlussfolgern, dass wir die Nullhypothese ablehnen können. Lassen Sie uns dies im Detail verstehen.

#Hack 1

Bedenken Sie, dass wir 5 Arten von CoronaVirus-Impfstoffkandidaten bei uns haben, für die wir prüfen müssen, welche tatsächliche Auswirkungen auf die Genesungszeit der Patienten haben. Nehmen wir also an, wir führen nacheinander Hypothesentests für alle 5 Arten von Impfstoffen durch. Wir setzen das Alpha auf 0,05. Und daher sagen wir, wenn der P-Wert für einen Impfstoff niedriger ist, können wir die Nullhypothese ablehnen. Oder können wir das?

Beispiel 1

Angenommen, Impfstoff A ergibt einen P-Wert von 0,2, Impfstoff B ergibt 0,058, Impfstoff C ergibt 0,4, Impfstoff D ergibt 0,02, Impfstoff E ergibt 0,07.

Aus den obigen Ergebnissen lässt sich nun naiv ableiten, dass Impfstoff D derjenige ist, der die Genesungszeit erheblich verkürzt und als CoronaVirus-Impfstoff verwendet werden kann. Aber können wir das wirklich jetzt schon sagen? Nein. Wenn wir das tun, könnten wir P-Hacking betreiben. Da dies ein falsch positives Ergebnis sein kann.

Beispiel 2

Okay, nehmen wir es anders. Stellen Sie sich vor, wir haben einen Impfstoff X und wir wissen mit Sicherheit, dass dieser Impfstoff nutzlos ist und keine Auswirkung auf die Genesungszeit hat. Dennoch führen wir jeweils 10 Hypothesentests durch unterschiedliche Stichproben mit einem P-Wert von 0,05 durch. Angenommen, wir erhalten in unseren 10 Tests die folgenden P-Werte: 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Wenn wir nun die obigen Tests berücksichtigen müssten, hätte uns der Test mit einem überraschend niedrigen P-Wert von 0,03 dazu gebracht, die Nullhypothese abzulehnen, aber in Wirklichkeit war es das nicht.

Was sehen wir also aus den obigen Beispielen? Wenn wir sagen, dass Alpha = 0,05 ist, legen wir im Wesentlichen ein Konfidenzintervall von 95 % fest. Und das bedeutet, dass 5 % der Tests immer noch zu Fehlern wie oben führen.

Mehrfaches Testproblem

Eine Möglichkeit, dem entgegenzuwirken, besteht darin, die Anzahl der Tests zu erhöhen. Je mehr Tests, desto leichter können Sie sagen, dass die maximale Anzahl von Tests zur Ablehnung von Null führt. Aber mehr Tests bedeuten auch, dass es mehr falsch positive Ergebnisse gibt (in unserem Fall 5 % aller Tests). 5 von 100, 50 von 1000 oder 500 von 10.000! Dies wird auch als Multiple-Testing-Problem bezeichnet .

Rate falscher Entdeckungen

Eine der Möglichkeiten, die oben genannten Probleme anzugehen, besteht darin, den gesamten P-Wert mithilfe eines Mechanismus namens False Discovery Rate (FDR) anzupassen. FDR ist eine mathematische Anpassung der P-Werte, die sie um einige Werte erhöht, und am Ende könnten die P-Werte, die fälschlicherweise niedriger waren, auf Werte über 0,05 angepasst werden.

Lernen : 8 wichtige Fähigkeiten für Data Scientists

#Hack 2

Betrachten Sie nun einen Fall aus Beispiel, bei dem Impfstoff B einen P-Wert von 0,058 ergab. Wären Sie nicht versucht, weitere Daten hinzuzufügen und erneut zu testen, ob der P-Wert abnimmt? Angenommen, Sie fügen ein paar weitere Datenpunkte hinzu, und der P-Wert für Impfstoff B beträgt 0,048. Ist das legitim? Nein, du wärst wieder P-Hacking. Wir können Daten später nicht ändern oder hinzufügen, um sie für unsere Tests anzupassen, und die genaue Stichprobengröße muss vor der Durchführung der Tests durch Power Analysis festgelegt werden .

Die Power-Analyse gibt uns die richtige Stichprobengröße an, die wir benötigen, um die größtmögliche Chance zu haben, die Nullhypothese korrekt abzulehnen und nicht getäuscht zu werden.

#Hack 3

Ein weiterer Fehler, den Sie nicht machen sollten, ist, das Alpha zu ändern, nachdem Sie die Experimente durchgeführt haben. Wenn Sie also einen P-Wert von 0,058 sehen, denken Sie, was wäre, wenn mein Alpha 0,06 wäre?

Sie können es jedoch nicht mehr ändern, sobald Ihr Test beginnt.

Muss gelesen werden: Wie wird man Data Scientist?

Bevor du gehst

Hypothesentests und P-Werte sind ein kniffliges Thema und müssen sorgfältig verstanden werden, bevor irgendwelche Schlussfolgerungen gezogen werden. Statistische Power und Power Analysis sind ein wichtiger Teil davon, der vor Beginn der Tests berücksichtigt werden muss.

Wenn Sie neugierig sind, mehr über Data Science zu erfahren, schauen Sie sich das PG Diploma in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Was versteht man unter P-Hacking?

P-Hacking oder Data Dredging ist eine Methode, um die Datenanalysetechniken zu missbrauchen, um Muster in Daten zu finden, die signifikant erscheinen, es aber nicht sind. Diese Methode wirkt sich negativ auf die Studie aus, da sie falsche Versprechen gibt, signifikante Datenmuster zu liefern, was wiederum zu einem drastischen Anstieg der Anzahl falsch positiver Ergebnisse führen kann.

P-Hacking kann nicht vollständig verhindert werden, aber es gibt einige Methoden, die es sicher reduzieren und helfen können, die Falle zu vermeiden.

Was muss ich beachten, um P-Hacking zu vermeiden?

Sie können einige sichere Praktiken anwenden, um die Fälle von p-Hacking zu minimieren. Sie können zunächst einen detaillierten Plan der durchzuführenden Tests erstellen und diesen dann online in einem Register registrieren. Sie müssen sicherstellen, dass Sie den vollständigen Test zuerst ausführen lassen und ihn nicht zwischendurch unterbrechen, auch wenn der erforderliche p-Wert erreicht ist.

Abgesehen von diesen Maßnahmen können Sie auch sicherstellen, dass Sie mit einem qualitativ hochwertigen Datensatz beginnen, um Fehlermöglichkeiten zu vermeiden. All diese Sicherheitsmaßnahmen werden Ihnen auf jeden Fall dabei helfen, das Ausbaggern von Daten weitgehend zu vermeiden.

Was ist die Falschentdeckungsrate?

Dies ist einer der fortschrittlichsten Ansätze, um die Probleme im Zusammenhang mit p-Hacking zu lösen. Mit dieser Methode können Sie die p-Werte für jeden Test anpassen. Im Gegensatz zu anderen Methoden reduziert es die falsch-positiven Ergebnisse nicht, sondern entdeckt sie. Dies macht es aussagekräftiger als andere Methoden wie die Bonferroni-Korrektur und genauer beim Auffinden signifikanter Ergebnisse.

Diese angepassten p-Werte werden auch als q-Werte bezeichnet. Es gibt andere Versionen dieses FDR-Ansatzes wie den optimierten FDR-Ansatz.