Ce este P-Hacking și cum să-l eviți în 2022?

Publicat: 2021-01-02

Analiza statistică este o parte esențială a științei datelor și analizei. Unul dintre cele mai importante concepte în statistică este testarea ipotezelor și valorile P. Interpretarea valorii P poate fi dificilă și s-ar putea să o faci greșit. Atenție la P-Hacking!

Până la sfârșitul acestui tutorial, veți avea cunoștințele de mai jos:

Valori P
Cum să respingi/acceptăm ipoteza
Ce este P-Hacking și cum să-l eviți
Ce este Puterea Statistică

Să ne scufundăm direct!

Cuprins

Ce sunt valorile P?

Valorile P evaluează cât de bine eșantionul de date susține că ipoteza nulă este adevărată. Măsoară cât de corecte sunt datele eșantionului cu ipoteza nulă.

În timpul efectuării testelor statistice, o valoare de prag sau alfa trebuie setată înainte de începerea testului. O valoare comună pentru aceasta este 0,05, care poate fi considerată o probabilitate. Valorile P sunt definite ca probabilitatea de a obține un rezultat la fel de rar ca alfa sau chiar mai rar.

Prin urmare, dacă obținem valoarea P mai mică decât acea alfa, asta ar însemna că testul nostru statistic nu a avut loc întâmplător și a fost într-adevăr semnificativ. Deci, dacă valoarea noastră P vine, să zicem, 0,04, spunem că respingem ipoteza nulă.

O valoare P scăzută sugerează că eșantionul dumneavoastră oferă suficiente dovezi că puteți respinge ipoteza nulă pentru întreaga populație. Dacă aveți o valoare P mai mică de 0,05 în cazul nostru, atunci puteți spune cu siguranță că ipoteza nulă poate fi respinsă. Cu alte cuvinte, eșantionul pe care l-ați luat din populație nu a apărut din pură întâmplare și experimentul a avut într-adevăr un efect semnificativ.

Deci, ce poate merge prost?

Deoarece spunem că obținerea oricărei valori P mai mică decât alfa ne oferă libertatea de a respinge în siguranță ipoteza nulă, s-ar putea să facem o greșeală dacă experimentul nostru în sine nu arată imaginea corectă! Cu alte cuvinte, ar putea fi un fals pozitiv.

Ce este P-Hacking?

Spunem că am P-Hacked atunci când exploatăm incorect analiza statistică și concluzionăm în mod fals că putem respinge ipoteza nulă. Să înțelegem asta în detaliu.

# Hack 1

Luați în considerare că avem 5 tipuri de vaccinuri candidate CoronaVirus la noi pentru care trebuie să verificăm care dintre ele are impact real asupra timpului de recuperare a pacienților. Deci, să presupunem că facem teste de ipoteză pentru toate cele 5 tipuri de vaccinuri unul câte unul. Setăm alpha la 0,05. Și, prin urmare, dacă valoarea P pentru orice vaccin este mai mică decât atât, spunem că putem respinge ipoteza nulă.. Sau putem?

Exemplul 1

Să spunem, Vaccinul A dă o valoare P de 0,2, Vaccinul B dă 0,058, Vaccinul C dă 0,4, Vaccinul D 0,02, Vaccinul E 0,07.

Acum, după rezultatele de mai sus, o modalitate naivă de a deduce va fi că vaccinul D este cel care reduce semnificativ timpul de recuperare și poate fi folosit ca vaccin împotriva coronavirusului. Dar putem să spunem asta încă? Nu. Dacă o facem, s-ar putea să fim P-Hacking. Deoarece acesta poate fi un fals pozitiv.

Exemplul 2

Bine, hai să o luăm altfel. Luați în considerare că avem un vaccin X și știm cu siguranță că acest vaccin este inutil și nu are niciun efect asupra timpului de recuperare. Totuși, efectuăm 10 teste de ipoteză cu diferite eșantioane aleatorii de fiecare dată cu o valoare P de 0,05. Să presupunem că obținem următoarele valori P în cele 10 teste: 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Acum, dacă ar fi trebuit să luăm în considerare testele de mai sus, testul cu o valoare P surprinzător de scăzută de 0,03 ne-ar fi făcut să respingem Ipoteza Nulă, dar în realitate nu a fost.

Deci, ce vedem din exemplele de mai sus? În esență, când spunem că alfa = 0,05 stabilim un interval de încredere de 95%. Și asta înseamnă că 5% dintre teste vor avea în continuare erori ca mai sus.

Problemă de testare multiplă

O modalitate de a aborda acest lucru ar fi creșterea numărului de teste. Deci, mai multe teste, mai ușor puteți spune că numărul maxim de teste duc la respingerea lui Null. Dar, de asemenea, mai multe teste vor însemna că vor exista mai multe fals pozitive (5% din totalul testelor în cazul nostru). 5 din 100, 50 din 1000 sau 500 din 10.000! Aceasta se mai numește și problema testării multiple .

Rata de descoperire falsă

Una dintre modalitățile de abordare a problemelor de mai sus este ajustarea întregii valori P prin utilizarea unui mecanism numit False Discovery Rate (FDR). FDR este o ajustare matematică a valorilor P care le crește cu unele valori și, în final, valorile P care au scăzut incorect, ar putea fi ajustate la valori mai mari de 0,05.

Aflați : 8 abilități importante pentru cercetătorii de date

# Hack 2

Acum luați în considerare un caz din exemplu în care vaccinul B a dat o valoare P de 0,058. Nu ați fi tentant să adăugați mai multe date și să retestați pentru a vedea dacă P-Value scade? Să spunem, mai adăugați câteva puncte de date, iar valoarea P pentru vaccinul B a ajuns la 0,048. Este acest lucru legal? Nu, ai fi din nou P-Hacking. Nu putem modifica sau adăuga date pentru a se potrivi cu testele noastre mai târziu, iar dimensiunea exactă a eșantionului trebuie să fie decisă înainte de efectuarea testelor, făcând analiza puterii .

Analiza puterii ne spune dimensiunea corectă a eșantionului de care avem nevoie pentru a avea șanse maxime de a respinge corect ipoteza nulă și de a nu ne lăsa păcăliți.

# Hack 3

Încă o greșeală pe care nu ar trebui să o faceți este să schimbați alfa după ce efectuați experimentele. Deci, odată ce vedeți o valoare P de 0,058, vă gândiți ce se întâmplă dacă alfa mea ar fi 0,06?

Dar nu îl puteți schimba odată ce experimentul începe.

Trebuie să citești : Cum să devii un Data Scientist?

Inainte sa pleci

Testarea ipotezelor și a valorilor P este un subiect dificil și trebuie înțeles cu atenție înainte de a avea orice deducere. Puterea statistică și analiza puterii sunt o parte importantă a acestui lucru care trebuie reținut înainte de a începe testele.

Dacă sunteți curios să aflați despre știința datelor, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1- on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Ce înțelegi prin P-Hacking?

P-Hacking sau dragarea datelor este o metodă de utilizare greșită a tehnicilor de analiză a datelor pentru a găsi modele în date care par semnificative, dar nu sunt. Această metodă afectează negativ studiul, deoarece oferă promisiuni false de a furniza modele semnificative de date care, la rândul lor, pot duce la o creștere drastică a numărului de fals pozitive.

P-hacking-ul nu poate fi prevenit complet, dar există câteva metode care cu siguranță îl pot reduce și ajuta la evitarea capcanei.

De ce ar trebui să țin cont pentru a evita p-hacking-ul?

Puteți folosi unele practici sigure pentru a minimiza cazurile de p-hacking. Puteți face mai întâi un plan detaliat al testelor de efectuat și apoi îl puteți înregistra într-un registru online. Trebuie să vă asigurați că permiteți executarea completă a testului mai întâi și nu întrerupeți între ele, chiar dacă este atinsă valoarea p necesară.

Pe lângă aceste măsuri, vă puteți asigura, de asemenea, că începeți cu un set de date de înaltă calitate pentru a evita șansele de eroare. Toate aceste măsuri de siguranță vă vor ajuta cu siguranță să evitați dragarea datelor într-o mare măsură.

Ce este rata de descoperire falsă?

Aceasta este una dintre cele mai avansate abordări pentru a rezolva problemele legate de p-hacking. Această metodă vă permite să ajustați valorile p pentru fiecare test. Spre deosebire de alte metode, nu reduce rezultatele fals-pozitive, ci le descoperă. Acest lucru îl face mai semnificativ decât alte metode precum corecția Bonferroni și mai precis în găsirea de rezultate semnificative.

Aceste valori p ajustate sunt cunoscute și sub denumirea de valori q. Există și alte versiuni ale acestei abordări FDR, cum ar fi abordarea FDR optimizată.