Cos'è il P-Hacking e come evitarlo nel 2022?

Pubblicato: 2021-01-02

L'analisi statistica è una parte essenziale della scienza dei dati e dell'analisi. Uno dei concetti più importanti in statistica è il test di ipotesi e i valori P. Interpretare il valore P può essere complicato e potresti sbagliare. Attenzione al P-Hacking!

Alla fine di questo tutorial avrai la conoscenza di quanto segue:

  • Valori P
  • Come rifiutare/accettare ipotesi
  • Cos'è P-Hacking e come evitarlo
  • Cos'è il potere statistico

Entriamo subito!

Sommario

Cosa sono i valori P?

I valori P valutano quanto bene i dati del campione supportano che l'ipotesi nulla sia vera. Misura la correttezza dei dati del tuo campione con l'ipotesi nulla.

Durante l'esecuzione dei test statistici, prima di avviare il test è necessario impostare un valore di soglia o l'alfa. Un valore comune per esso è 0,05, che può essere considerato una probabilità. I valori P sono definiti come la probabilità di ottenere un risultato raro quanto quell'alfa o anche più raro.

Pertanto, se otteniamo il nostro valore P inferiore a quell'alfa, ciò significherebbe che il nostro test statistico non si è verificato per caso ed è stato davvero significativo. Quindi, se il nostro valore P arriva, diciamo, a 0,04, diciamo che rifiutiamo l'ipotesi nulla.

Un valore P basso suggerisce che il tuo campione fornisce prove sufficienti che puoi rifiutare l'ipotesi nulla per l'intera popolazione. Se nel nostro caso hai un valore P inferiore a 0,05, puoi tranquillamente affermare che l'ipotesi nulla può essere rifiutata. In altre parole, il campione che hai prelevato dalla popolazione non è nato per puro caso e l'esperimento ha avuto effetti significativi.

Allora cosa può andare storto?

Poiché diciamo che ottenere un valore P inferiore a alfa ci dà la libertà di rifiutare in sicurezza l'ipotesi nulla, potremmo commettere un errore se il nostro esperimento stesso non mostra l'immagine giusta! In altre parole, potrebbe essere un falso positivo.

Cos'è P-Hacking?

Diciamo che abbiamo P-Hacked quando sfruttiamo in modo errato l'analisi statistica e concludiamo erroneamente che possiamo rifiutare l'ipotesi nulla. Capiamolo in dettaglio.

# Hackeraggio 1

Considera che abbiamo con noi 5 tipi di vaccini candidati al CoronaVirus per i quali dobbiamo verificare quale abbia un impatto effettivo sui tempi di recupero dei pazienti. Quindi diciamo che eseguiamo i test di ipotesi per tutti e 5 i tipi di vaccini uno per uno. Impostiamo l'alfa come 0,05. E quindi se il valore P per qualsiasi vaccino è inferiore a quello, diciamo che possiamo rifiutare l'ipotesi nulla.. O possiamo?

Esempio 1

Diciamo che il vaccino A fornisce un valore P di 0,2, il vaccino B dà 0,058, il vaccino C dà 0,4, il vaccino D dà 0,02, il vaccino E dà 0,07.

Ora, dai risultati di cui sopra, un modo ingenuo per dedurre sarà che il vaccino D è quello che riduce significativamente i tempi di recupero e può essere utilizzato come vaccino CoronaVirus. Ma possiamo davvero dirlo ancora? No. Se lo facciamo, potremmo essere P-Hacking. Poiché questo può essere un falso positivo.

Esempio 2

Ok, prendiamola in un altro modo. Considera che abbiamo un vaccino X e sicuramente sappiamo che questo vaccino è inutile e non ha alcun effetto sui tempi di recupero. Tuttavia, eseguiamo 10 test di ipotesi con diversi campioni casuali ogni volta con un valore P di 0,05. Supponiamo di ottenere i seguenti valori P nei nostri 10 test: 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Ora, se dovessimo considerare i test di cui sopra, il test con un P-Value sorprendentemente basso di 0,03 ci avrebbe fatto rifiutare l'ipotesi Null, ma in realtà non lo era.

Quindi cosa vediamo dagli esempi sopra? In sostanza, quando diciamo che alpha = 0,05 impostiamo un intervallo di confidenza del 95%. Ciò significa che il 5% dei test risulterà comunque in errori come sopra.

Problema di test multipli

Un modo per affrontare questo problema sarebbe aumentare il numero di test. Quindi più test, più facilmente puoi dire che il numero massimo di test comporta il rifiuto di Null. Ma anche, più test significheranno che ci saranno più falsi positivi (5% del totale dei test nel nostro caso). 5 su 100, 50 su 1000 o 500 su 10.000! Questo è anche chiamato il problema dei test multipli .

Tasso di falsa scoperta

Uno dei modi per affrontare i problemi di cui sopra è regolare tutto il valore P utilizzando un meccanismo chiamato False Discovery Rate (FDR). FDR è una correzione matematica dei valori P che li aumenta di alcuni valori e alla fine, i valori P che sono erroneamente inferiori, potrebbero essere adeguati a valori superiori a 0,05.

Impara : 8 abilità importanti per i data scientist

# Hackeraggio 2

Consideriamo ora un caso dell'esempio in cui il vaccino B ha fornito un valore P di 0,058. Non saresti tentato di aggiungere altri dati e ripetere il test per vedere se il valore P diminuisce? Supponiamo di aggiungere alcuni punti dati in più e il valore P per il vaccino B è diventato 0,048. Questo è legittimo? No, saresti di nuovo P-Hacking. Non possiamo modificare o aggiungere dati per adattarli ai nostri test in un secondo momento e l'esatta dimensione del campione deve essere decisa prima di eseguire i test eseguendo l'analisi della potenza .

L'analisi della potenza ci dice la giusta dimensione del campione di cui abbiamo bisogno per avere le massime possibilità di rifiutare correttamente l'ipotesi nulla e non farci ingannare.

# Hackeraggio 3

Un altro errore che non dovresti fare è cambiare l'alfa dopo aver eseguito gli esperimenti. Quindi, una volta che vedi un valore P di 0,058, pensi che cosa accadrebbe se il mio alfa fosse 0,06?

Ma non puoi cambiarlo una volta iniziato l'esperimento.

Deve leggere : Come diventare un Data Scientist?

Prima che tu vada

Verifica delle ipotesi e valori P è un argomento complicato e deve essere compreso attentamente prima di avere detrazioni. La potenza statistica e l'analisi della potenza sono una parte importante di questo che deve essere tenuta a mente prima di iniziare i test.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al Diploma PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Cosa intendi per P-Hacking?

Il P-Hacking o il dragaggio dei dati è un metodo per utilizzare in modo improprio le tecniche di analisi dei dati per trovare schemi nei dati che sembrano significativi ma non lo sono. Questo metodo influisce negativamente sullo studio in quanto fornisce false promesse di fornire modelli di dati significativi che a loro volta possono portare a un drastico aumento del numero di falsi positivi.

Il P-hacking non può essere prevenuto completamente, ma ci sono alcuni metodi che possono sicuramente ridurlo e aiutare a evitare la trappola.

Cosa devo tenere a mente per evitare il p-hacking?

Puoi utilizzare alcune pratiche sicure per ridurre al minimo i casi di p-hacking. Puoi prima fare un piano dettagliato delle prove da effettuare e poi registrarlo su un registro online. È necessario assicurarsi di consentire che il test completo venga eseguito per primo e di non interromperlo nel frattempo anche se viene raggiunto il valore p richiesto.

Oltre a queste misure, puoi anche assicurarti di iniziare con un set di dati di alta qualità per evitare possibilità di errore. Tutte queste misure di sicurezza ti aiuteranno sicuramente a evitare il dragaggio dei dati in larga misura.

Che cos'è il tasso di false scoperte?

Questo è uno degli approcci più avanzati per risolvere i problemi relativi al p-hacking. Questo metodo consente di regolare i valori p per ciascun test. A differenza di altri metodi, non riduce i risultati falsi positivi, ma li scopre. Questo lo rende più significativo di altri metodi come la correzione Bonferroni e più accurato nel trovare risultati significativi.

Questi valori p corretti sono anche noti come valori q. Esistono altre versioni di questo approccio FDR come l'approccio FDR ottimizzato.