¿Qué es el P-Hacking y cómo evitarlo en 2022?

Publicado: 2021-01-02

El análisis estadístico es una parte esencial de la ciencia y el análisis de datos. Uno de los conceptos más importantes en estadística es la prueba de hipótesis y los valores P. Interpretar el valor P puede ser complicado y es posible que lo estés haciendo mal. ¡Cuidado con el P-Hacking!

Al final de este tutorial, tendrá el conocimiento de lo siguiente:

Valores P
Cómo rechazar/aceptar hipótesis
Qué es el P-Hacking y cómo evitarlo
¿Qué es el poder estadístico?

¡Vamos a sumergirnos!

Tabla de contenido

¿Qué son los valores P?

Los valores P evalúan qué tan bien los datos de la muestra respaldan que la hipótesis nula es verdadera. Mide qué tan correctos son sus datos de muestra con la hipótesis nula.

Al realizar pruebas estadísticas, se debe establecer un valor de umbral o alfa antes de comenzar la prueba. Un valor común para él es 0,05, que se puede considerar como una probabilidad. Los valores p se definen como la probabilidad de obtener un resultado tan raro como el alfa o incluso más raro.

Por lo tanto, si obtenemos nuestro valor P menor que ese alfa, eso significaría que nuestra prueba estadística no ocurrió por casualidad y de hecho fue significativa. Entonces, si nuestro valor P es, digamos, 0.04, decimos que rechazamos la hipótesis nula.

Un valor P bajo sugiere que su muestra proporciona suficiente evidencia de que puede rechazar la hipótesis nula para toda la población. Si obtuvo un valor P de menos de 0,05 en nuestro caso, entonces puede decir con seguridad que se puede rechazar la hipótesis nula. En otras palabras, la muestra que tomó de la población no se produjo por pura casualidad y, de hecho, el experimento tuvo un efecto significativo.

Entonces, ¿qué puede salir mal?

Como decimos que obtener cualquier valor P menor que alfa nos da la libertad de rechazar con seguridad la hipótesis nula, ¡podríamos estar cometiendo un error si nuestro experimento en sí no muestra la imagen correcta! En otras palabras, podría ser un falso positivo.

¿Qué es P-Hacking?

Decimos que hicimos P-Hack cuando explotamos incorrectamente el análisis estadístico y concluimos falsamente que podemos rechazar la hipótesis nula. Entendamos esto en detalle.

# truco 1

Considere que tenemos 5 tipos de vacunas candidatas de CoronaVirus con nosotros para las cuales debemos verificar cuál tiene un impacto real en el tiempo de recuperación de los pacientes. Así que digamos que hacemos pruebas de hipótesis para los 5 tipos de vacunas uno por uno. Establecimos el alfa en 0.05. Y por lo tanto, si el Valor P para cualquier vacuna es menor que eso, decimos que podemos rechazar la Hipótesis Nula... ¿o podemos?

Ejemplo 1

Digamos, la vacuna A da un valor P de 0,2, la vacuna B da 0,058, la vacuna C da 0,4, la vacuna D da 0,02, la vacuna E da 0,07.

Ahora, según los resultados anteriores, una forma ingenua de deducir será que la Vacuna D es la que reduce significativamente el tiempo de recuperación y puede usarse como la Vacuna contra el CoronaVirus. Pero, ¿podemos realmente decir eso todavía? No. Si lo hacemos, podríamos estar pirateando. Ya que esto puede ser un falso positivo.

Ejemplo 2

Está bien, tomémoslo de otra manera. Considere que tenemos una Vacuna X y seguramente sabemos que esta Vacuna es inútil y no tiene ningún efecto sobre el tiempo de recuperación. Aun así, llevamos a cabo 10 pruebas de hipótesis con diferentes muestras aleatorias cada vez con un valor P de 0,05. Digamos que obtenemos los siguientes valores P en nuestras 10 pruebas: 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Ahora bien, si tuviéramos que considerar las pruebas anteriores, la prueba con un valor P sorprendentemente bajo de 0,03 nos habría hecho rechazar la hipótesis nula, pero en realidad no fue así.

Entonces, ¿qué vemos en los ejemplos anteriores? En esencia, cuando decimos que alfa = 0,05 establecemos un intervalo de confianza del 95%. Y eso significa que el 5% de las pruebas aún darán como resultado errores como los anteriores.

Problema de prueba múltiple

Una forma de abordar esto sería aumentar el número de pruebas. Entonces, a más pruebas, más fácilmente puede decir que la cantidad máxima de pruebas está dando como resultado el rechazo de Nulo. Pero además, más pruebas supondrán que habrá más falsos positivos (5% del total de pruebas en nuestro caso). ¡5 de 100, 50 de 1000 o 500 de 10,000! Esto también se llama el Problema de Pruebas Múltiples .

Tasa de descubrimiento falso

Una de las formas de abordar los problemas anteriores es ajustar todo el valor P mediante el uso de un mecanismo llamado Tasa de descubrimiento falso (FDR). FDR es un ajuste matemático de los valores P que los aumenta en algunos valores y, al final, los valores P que incorrectamente fueron más bajos, pueden ajustarse a valores superiores a 0,05.

Aprenda : 8 habilidades importantes para los científicos de datos

# truco 2

Ahora considere un caso del ejemplo donde la Vacuna B dio un valor P de 0.058. ¿No estaría tentado a agregar algunos datos más y volver a probar para ver si el valor P disminuye? Digamos que agrega algunos puntos de datos más y el valor P para la Vacuna B llegó a ser 0.048. ¿Es esto legítimo? No, volverías a ser P-Hacking. No podemos cambiar o agregar datos para adaptarnos a nuestras pruebas más adelante y el tamaño exacto de la muestra debe decidirse antes de realizar las pruebas mediante el análisis de potencia .

El análisis de poder nos dice el tamaño de muestra correcto que necesitamos para tener las máximas posibilidades de rechazar correctamente la hipótesis nula y no dejarnos engañar.

# Hack 3

Un error más que no debes cometer es cambiar el alfa después de realizar los experimentos. Entonces, una vez que ve un valor P de 0.058, piensa ¿y si mi alfa fuera 0.06?

Pero no puede cambiarlo una vez que comience su experimento.

Debe leer : ¿Cómo convertirse en un científico de datos?

Antes de que te vayas

La prueba de hipótesis y los valores P es un tema complicado y debe entenderse cuidadosamente antes de hacer deducciones. La potencia estadística y el análisis de potencia son una parte importante de esto que debe tenerse en cuenta antes de comenzar las pruebas.

Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Diploma PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1- on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Qué entiendes por P-Hacking?

P-Hacking o Dragado de datos es un método para hacer un mal uso de las técnicas de análisis de datos para encontrar patrones en los datos que parecen significativos pero no lo son. Este método afecta negativamente al estudio, ya que ofrece falsas promesas de proporcionar patrones de datos significativos que, a su vez, pueden conducir a un aumento drástico en el número de falsos positivos.

El P-hacking no se puede prevenir por completo, pero existen algunos métodos que seguramente pueden reducirlo y ayudar a evitar la trampa.

¿Qué debo tener en cuenta para evitar el p-hacking?

Puede usar algunas prácticas seguras para minimizar las instancias de p-hacking. Primero puede hacer un plan detallado de las pruebas a realizar y luego registrarlo en un registro en línea. Debe asegurarse de permitir que la prueba completa se ejecute primero y no se interrumpa en el medio, incluso si se alcanza el valor p requerido.

Además de estas medidas, también puede asegurarse de comenzar con un conjunto de datos de alta calidad para evitar posibilidades de error. Todas estas medidas de seguridad definitivamente lo ayudarán a evitar en gran medida el dragado de datos.

¿Qué es la tasa de descubrimiento falso?

Este es uno de los enfoques más avanzados para resolver los problemas relacionados con p-hacking. Este método le permite ajustar los valores p para cada prueba. A diferencia de otros métodos, no reduce los resultados falsos positivos, sino que los descubre. Esto lo hace más significativo que otros métodos como la corrección de Bonferroni y más preciso para encontrar resultados significativos.

Estos valores p ajustados también se conocen como valores q. Hay otras versiones de este enfoque FDR como el enfoque FDR optimizado.