Czym jest P-hacking i jak go unikać w 2022 roku?

Opublikowany: 2021-01-02

Analiza statystyczna jest istotną częścią nauki o danych i analizy. Jednym z najważniejszych pojęć w statystyce jest testowanie hipotez i wartości P. Interpretacja wartości P może być trudna i możesz robić to źle. Uważaj na P-hacking!

Pod koniec tego samouczka będziesz mieć wiedzę na temat poniżej:

Wartości P
Jak odrzucić/zaakceptować hipotezę
Czym jest P-Hacking i jak go uniknąć
Czym jest moc statystyczna

Zanurzmy się od razu!

Spis treści

Czym są wartości P?

Wartości P oceniają, jak dobrze dane próbki potwierdzają prawdziwość hipotezy zerowej. Mierzy poprawność przykładowych danych z hipotezą zerową.

Podczas wykonywania testów statystycznych, przed rozpoczęciem testu należy ustawić wartość progową lub alfa. Wspólna wartość to 0,05, co można traktować jako prawdopodobieństwo. Wartości P definiuje się jako prawdopodobieństwo uzyskania wyniku tak rzadkiego jak ta alfa lub nawet rzadszego.

Dlatego jeśli otrzymamy naszą wartość P mniejszą niż ta alfa, oznaczałoby to, że nasz test statystyczny nie pojawił się przypadkowo i był rzeczywiście istotny. Tak więc, jeśli nasza wartość P wynosi, powiedzmy, 0,04, mówimy, że odrzucamy Hipotezę Zerową.

Niska wartość P sugeruje, że Twoja próba dostarcza wystarczających dowodów, aby odrzucić hipotezę zerową dla całej populacji. Jeśli w naszym przypadku uzyskałeś wartość P mniejszą niż 0,05, możesz śmiało powiedzieć, że hipotezę zerową można odrzucić. Innymi słowy, próbka pobrana z populacji nie pojawiła się przez czysty przypadek, a eksperyment rzeczywiście miał znaczący wpływ.

Więc co może pójść nie tak?

Ponieważ mówimy, że uzyskanie jakiejkolwiek wartości P mniejszej niż alfa daje nam swobodę bezpiecznego odrzucenia Hipotezy Zerowej, możemy popełnić błąd, jeśli sam eksperyment nie pokazuje właściwego obrazu! Innymi słowy, może to być fałszywy alarm.

Co to jest hakowanie P?

Mówimy, że zhakowaliśmy, gdy nieprawidłowo wykorzystujemy analizę statystyczną i fałszywie wnioskujemy, że możemy odrzucić hipotezę zerową. Rozumiemy to szczegółowo.

# Zhakuj 1

Weź pod uwagę, że mamy ze sobą 5 rodzajów szczepionek przeciwko koronawirusowi, dla których musimy sprawdzić, który z nich ma rzeczywisty wpływ na czas powrotu do zdrowia pacjentów. Powiedzmy, że wykonujemy testy hipotez dla wszystkich 5 rodzajów szczepionek jeden po drugim. Ustawiamy alfa na 0,05. A zatem, jeśli wartość P dla jakiejkolwiek szczepionki jest mniejsza niż ta, mówimy, że możemy odrzucić Hipotezę Zerową.. A może możemy?

Przykład 1

Powiedzmy, Szczepionka A daje wartość P 0,2, Szczepionka B daje 0,058, Szczepionka C daje 0,4, Szczepionka D daje 0,02, Szczepionka E daje 0,07.

Teraz, na podstawie powyższych wyników, naiwnym sposobem na wywnioskowanie będzie to, że szczepionka D jest tą, która znacznie skraca czas powrotu do zdrowia i może być stosowana jako szczepionka CoronaVirus. Ale czy naprawdę możemy to jeszcze powiedzieć? Nie. Jeśli to zrobimy, być może będziemy hakować. Ponieważ może to być fałszywy alarm.

Przykład 2

Dobra, zróbmy to w inny sposób. Weź pod uwagę, że mamy Szczepionkę X i na pewno wiemy, że ta Szczepionka jest bezużyteczna i nie ma wpływu na czas rekonwalescencji. Nadal przeprowadzamy 10 testów hipotez na różnych losowych próbach za każdym razem z wartością P 0,05. Załóżmy, że w naszych 10 testach otrzymujemy następujące wartości P: 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Teraz, gdybyśmy musieli rozważyć powyższe testy, test z zaskakująco niską wartością P wynoszącą 0,03 kazałby nam odrzucić Hipotezę Zerową, ale w rzeczywistości tak nie było.

Co więc widzimy z powyższych przykładów? Zasadniczo, kiedy mówimy, że alfa = 0,05, ustawiamy przedział ufności na 95%. A to oznacza, że 5% testów nadal będzie skutkować błędami jak powyżej.

Problem z wielokrotnym testowaniem

Jednym ze sposobów rozwiązania tego problemu byłoby zwiększenie liczby testów. Im więcej testów, tym łatwiej można powiedzieć, że maksymalna liczba testów skutkuje odrzuceniem wartości Null. Ale także więcej testów będzie oznaczać więcej wyników fałszywie dodatnich (w naszym przypadku 5% wszystkich testów). 5 na 100, 50 na 1000 lub 500 na 10 000! Nazywa się to również problemem wielokrotnego testowania .

Wskaźnik fałszywych odkryć

Jednym ze sposobów rozwiązania powyższych problemów jest dostosowanie wszystkich wartości P za pomocą mechanizmu zwanego współczynnikiem fałszywego odkrywania (FDR). FDR to matematyczna korekta wartości P, która zwiększa je o pewne wartości, a na końcu wartości P, które błędnie spadły, mogą zostać skorygowane do wartości wyższych niż 0,05.

Dowiedz się : 8 ważnych umiejętności dla naukowców zajmujących się danymi

# Zhakuj 2

Rozważmy teraz przypadek z przykładu, w którym Szczepionka B dała wartość P 0,058. Czy nie kusiłbyś, aby dodać więcej danych i ponownie przetestować, aby sprawdzić, czy wartość P spada? Powiedzmy, że dodasz kilka dodatkowych punktów danych, a wartość P dla szczepionki B wyniosła 0,048. Czy to jest legalne? Nie, znowu będziesz P-Hackingiem. Nie możemy później zmienić ani dodać danych, aby dopasować je do naszych testów, a dokładną wielkość próbki należy ustalić przed wykonaniem testów, wykonując analizę mocy .

Analiza mocy wskazuje nam odpowiednią wielkość próbki, której potrzebujemy, aby mieć maksymalne szanse na poprawne odrzucenie hipotezy zerowej i nie dać się zwieść.

# Zhakuj 3

Jeszcze jeden błąd, którego nie powinieneś robić, to zmiana alfa po wykonaniu eksperymentów. Więc kiedy zobaczysz wartość P 0,058, myślisz co, jeśli moja alfa wynosiła 0,06?

Ale nie możesz tego zmienić po rozpoczęciu eksperymentu.

Musisz przeczytać : Jak zostać analitykiem danych?

Zanim pójdziesz

Testowanie hipotez i wartości P to trudny temat i należy je dokładnie zrozumieć przed jakimikolwiek odliczeniami. Statystyczna moc i analiza mocy są ważną częścią tego, o czym należy pamiętać przed rozpoczęciem testów.

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Co rozumiesz przez P-Hacking?

P-Hacking lub pogłębianie danych to metoda niewłaściwego wykorzystania technik analizy danych w celu znalezienia wzorców w danych, które wydają się znaczące, ale nie są. Ta metoda ma negatywny wpływ na badanie, ponieważ daje fałszywe obietnice dostarczenia istotnych wzorców danych, co z kolei może prowadzić do drastycznego wzrostu liczby fałszywych trafień.

P-hackingowi nie da się całkowicie zapobiec, ale istnieją pewne metody, które z pewnością mogą je zredukować i pomóc uniknąć pułapki.

O czym powinienem pamiętać, aby uniknąć p-hackowania?

Możesz użyć pewnych bezpiecznych praktyk, aby zminimalizować przypadki p-hackowania. Możesz najpierw sporządzić szczegółowy plan badań do przeprowadzenia, a następnie zarejestrować je w rejestrze online. Musisz upewnić się, że pozwolisz, aby cały test został wykonany jako pierwszy i nie przerywał pomiędzy nimi, nawet jeśli wymagana wartość p zostanie osiągnięta.

Oprócz tych środków możesz również upewnić się, że zaczynasz od zestawu danych wysokiej jakości, aby uniknąć ryzyka błędu. Wszystkie te środki bezpieczeństwa z pewnością pomogą Ci w znacznym stopniu uniknąć pogłębiania danych.

Co to jest współczynnik fałszywych odkryć?

Jest to jedno z najbardziej zaawansowanych podejść do rozwiązania problemów związanych z p-hackingiem. Ta metoda umożliwia dostosowanie wartości p dla każdego testu. W przeciwieństwie do innych metod, nie redukuje wyników fałszywie dodatnich, zamiast tego wykrywa je. To sprawia, że jest ona ważniejsza niż inne metody, takie jak korekta Bonferroniego i dokładniejsza w znajdowaniu znaczących wyników.

Te skorygowane wartości p są również znane jako wartości q. Istnieją inne wersje tego podejścia FDR, takie jak zoptymalizowane podejście FDR.