Qu'est-ce que le P-Hacking et comment l'éviter en 2022 ?

Publié: 2021-01-02

L'analyse statistique est une partie essentielle de la science des données et de l'analyse. L'un des concepts les plus importants en statistique est le test d'hypothèse et les valeurs P. L'interprétation de la P-Value peut être délicate et vous pourriez vous tromper. Attention au P-Hacking !

À la fin de ce tutoriel, vous aurez les connaissances ci-dessous :

Valeurs P
Comment rejeter/accepter une hypothèse
Qu'est-ce que le P-Hacking et comment l'éviter
Qu'est-ce que la puissance statistique

Plongeons dedans !

Table des matières

Que sont les valeurs P ?

Les valeurs P évaluent dans quelle mesure les données de l'échantillon confirment que l'hypothèse nulle est vraie. Il mesure l'exactitude de vos données d'échantillon avec l'hypothèse nulle.

Lors de l'exécution de tests statistiques, une valeur de seuil ou l'alpha doit être défini avant de commencer le test. Une valeur courante est de 0,05, ce qui peut être considéré comme une probabilité. Les valeurs P sont définies comme la probabilité d'obtenir le résultat aussi rare que cet alpha ou même plus rare.

Par conséquent, si nous obtenons notre valeur P inférieure à cet alpha, cela signifierait que notre test statistique n'a pas eu lieu par hasard et qu'il était en effet significatif. Donc, si notre P-Value vient, disons, 0,04, nous disons que nous rejetons l'hypothèse nulle.

Une valeur P faible suggère que votre échantillon fournit suffisamment de preuves pour rejeter l'hypothèse nulle pour l'ensemble de la population. Si vous avez une valeur P inférieure à 0,05 dans notre cas, vous pouvez dire en toute sécurité que l'hypothèse nulle peut être rejetée. En d'autres termes, l'échantillon que vous avez prélevé dans la population ne s'est pas produit par pur hasard et l'expérience a effectivement eu un effet significatif.

Alors qu'est-ce qui peut mal tourner ?

Comme nous disons qu'obtenir une valeur P inférieure à alpha nous donne la liberté de rejeter en toute sécurité l'hypothèse nulle, nous pourrions faire une erreur si notre expérience elle-même ne montre pas la bonne image ! En d'autres termes, il pourrait s'agir d'un faux positif.

Qu'est-ce que le P-Hacking ?

Nous disons que nous avons P-Hacké lorsque nous exploitons incorrectement l'analyse statistique et concluons à tort que nous pouvons rejeter l'hypothèse nulle. Comprenons cela en détail.

# Hack 1

Considérons que nous avons 5 types de vaccins candidats CoronaVirus avec nous pour lesquels nous devons vérifier lequel a un impact réel sur le temps de récupération des patients. Disons donc que nous effectuons des tests d'hypothèses pour les 5 types de vaccins un par un. Nous avons fixé l'alpha à 0,05. Et par conséquent, si la valeur P d'un vaccin est inférieure à cela, nous disons que nous pouvons rejeter l'hypothèse nulle. Ou le pouvons-nous ?

Exemple 1

Disons que le vaccin A donne une valeur P de 0,2, le vaccin B donne 0,058, le vaccin C donne 0,4, le vaccin D donne 0,02, le vaccin E donne 0,07.

Maintenant, d'après les résultats ci-dessus, une façon naïve de déduire sera que le vaccin D est celui qui réduit considérablement le temps de récupération et peut être utilisé comme vaccin contre le coronavirus. Mais peut-on vraiment le dire pour l'instant ? Non. Si nous le faisons, nous pourrions être P-Hacking. Comme cela peut être un faux positif.

Exemple 2

Bon, prenons les choses autrement. Considérez que nous avons un vaccin X et nous savons sûrement que ce vaccin est inutile et n'a aucun effet sur le temps de récupération. Nous effectuons toujours 10 tests d'hypothèses par différents échantillons aléatoires à chaque fois avec une valeur P de 0,05. Supposons que nous obtenions les valeurs P suivantes dans nos 10 tests : 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Maintenant, si nous devions considérer les tests ci-dessus, le test avec une valeur P étonnamment basse de 0,03 nous aurait fait rejeter l'hypothèse nulle, mais en réalité ce n'était pas le cas.

Alors, que voyons-nous dans les exemples ci-dessus ? Essentiellement, lorsque nous disons que alpha = 0,05, nous fixons un intervalle de confiance de 95 %. Et cela signifie que 5% des tests entraîneront toujours des erreurs comme ci-dessus.

Problème de test multiple

Une façon d'y remédier serait d'augmenter le nombre de tests. Donc plus les tests sont nombreux, plus vous pouvez facilement dire que le nombre maximum de tests entraîne le rejet de Null. Mais aussi, plus de tests signifieront qu'il y aura plus de faux positifs (5% du total des tests dans notre cas). 5 sur 100, 50 sur 1000 ou 500 sur 10 000 ! C'est ce qu'on appelle aussi le problème des tests multiples .

Taux de fausse découverte

L'un des moyens de résoudre les problèmes ci-dessus consiste à ajuster toutes les valeurs P en utilisant un mécanisme appelé False Discovery Rate (FDR). Le FDR est un ajustement mathématique des P-Values qui les augmente de certaines valeurs et à la fin, les P-Values qui ont été incorrectement inférieures peuvent être ajustées à des valeurs supérieures à 0,05.

Apprendre : 8 compétences importantes pour les scientifiques des données

# Hack 2

Considérons maintenant un cas de l'exemple où le vaccin B a donné une valeur P de 0,058. Ne seriez-vous pas tenté d'ajouter des données supplémentaires et de refaire un test pour voir si la valeur P diminue ? Supposons que vous ajoutiez quelques points de données supplémentaires et que la valeur P pour le vaccin B soit de 0,048. Est-ce légitime ? Non, vous seriez à nouveau P-Hacking. Nous ne pouvons pas modifier ou ajouter des données en fonction de nos tests ultérieurement et la taille exacte de l'échantillon doit être décidée avant d'effectuer les tests en effectuant une analyse de puissance .

L'analyse de puissance nous indique la bonne taille d'échantillon dont nous avons besoin pour avoir le maximum de chances de rejeter correctement l'hypothèse nulle et de ne pas nous faire avoir.

# Hack 3

Une autre erreur que vous ne devriez pas faire est de changer l'alpha après avoir effectué les expériences. Donc, une fois que vous voyez une P-Value de 0,058, vous pensez que si mon alpha était de 0,06 ?

Mais vous ne pouvez pas le modifier une fois que votre test a commencé.

A lire : Comment devenir Data Scientist ?

Avant que tu partes

Les tests d'hypothèses et les valeurs P sont un sujet délicat et doivent être soigneusement compris avant d'avoir des déductions. La puissance statistique et l'analyse de puissance sont une partie importante de cela qui doit être gardée à l'esprit avant de commencer les tests.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le diplôme PG de IIIT-B & upGrad en science des données qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1- on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Qu'entendez-vous par P-Hacking ?

Le piratage informatique ou le dragage de données est une méthode pour utiliser à mauvais escient les techniques d'analyse de données pour trouver des modèles dans des données qui semblent significatives mais qui ne le sont pas. Cette méthode affecte négativement l'étude car elle donne de fausses promesses de fournir des modèles de données significatifs qui, à leur tour, peuvent entraîner une augmentation drastique du nombre de faux positifs.

Le P-hacking ne peut pas être complètement empêché, mais il existe certaines méthodes qui peuvent sûrement le réduire et aider à éviter le piège.

Que dois-je garder à l'esprit pour éviter le p-hacking ?

Vous pouvez utiliser certaines pratiques sûres pour minimiser les cas de p-hacking. Vous pouvez d'abord faire un plan détaillé des tests à réaliser puis l'inscrire sur un registre en ligne. Vous devez vous assurer que vous autorisez l'exécution du test complet en premier et qu'il n'y a pas d'interruption entre les deux, même si la valeur p requise est atteinte.

Outre ces mesures, vous pouvez également vous assurer de commencer avec un ensemble de données de haute qualité pour éviter les risques d'erreur. Toutes ces mesures de sécurité vous aideront certainement à éviter dans une large mesure le dragage de données.

Qu'est-ce que le taux de fausses découvertes ?

C'est l'une des approches les plus avancées pour résoudre les problèmes de p-hacking. Cette méthode vous permet d'ajuster les valeurs de p pour chaque test. Contrairement à d'autres méthodes, il ne réduit pas les résultats faussement positifs, mais les découvre. Cela le rend plus significatif que d'autres méthodes comme la correction de Bonferroni et plus précis pour trouver des résultats significatifs.

Ces valeurs p ajustées sont également appelées valeurs q. Il existe d'autres versions de cette approche FDR comme l'approche FDR optimisée.