O que é P-Hacking e como evitá-lo em 2022?

Publicados: 2021-01-02

A Análise Estatística é uma parte essencial da Ciência e Análise de Dados. Um dos conceitos mais importantes em estatística é o Teste de Hipóteses e os P-Values. Interpretar o P-Value pode ser complicado e você pode estar fazendo isso errado. Cuidado com o P-Hacking!

Ao final deste tutorial você terá o conhecimento abaixo:

  • Valores P
  • Como rejeitar/aceitar hipóteses
  • O que é P-Hacking e como evitá-lo
  • O que é Poder Estatístico

Vamos mergulhar direto!

Índice

O que são valores-P?

Os valores P avaliam quão bem os dados da amostra suportam que a hipótese nula é verdadeira. Ele mede quão corretos seus dados de amostra estão com a hipótese nula.

Ao realizar testes estatísticos, um valor limite ou alfa precisa ser definido antes de iniciar o teste. Um valor comum para ele é 0,05, que pode ser considerado uma probabilidade. Os valores P são definidos como a probabilidade de obter o resultado tão raro quanto esse alfa ou ainda mais raro.

Portanto, se obtivermos nosso valor P menor que esse alfa, isso significaria que nosso teste estatístico não ocorreu por acaso e foi realmente significativo. Então, se nosso P-Value for, digamos, 0,04, dizemos que rejeitamos a Hipótese Nula.

Um valor P baixo sugere que sua amostra fornece evidências suficientes para que você possa rejeitar a hipótese nula para toda a população. Se você obteve um P-Value menor que 0,05 em nosso caso, então você pode dizer com segurança que a hipótese nula pode ser rejeitada. Em outras palavras, a amostra que você tirou da população não ocorreu por puro acaso e o experimento de fato teve um efeito significativo.

Então o que pode dar errado?

Como dizemos que obter qualquer valor P menor que alfa nos dá a liberdade de rejeitar com segurança a Hipótese Nula, podemos estar cometendo um erro se nosso experimento em si não estiver mostrando a imagem correta! Em outras palavras, pode ser um falso positivo.

O que é P-Hacking?

Dizemos que fizemos um P-Hacked quando exploramos incorretamente a análise estatística e concluímos falsamente que podemos rejeitar a hipótese nula. Vamos entender isso em detalhes.

# Hack 1

Considere que temos 5 tipos de vacinas candidatas ao CoronaVirus conosco, para as quais precisamos verificar qual delas tem impacto real no tempo de recuperação dos pacientes. Então, digamos que façamos Testes de Hipótese para todos os 5 tipos de vacinas, um por um. Definimos o alfa como 0,05. E, portanto, se o P-Value de qualquer vacina for menor que isso, dizemos que podemos rejeitar a Hipótese Nula. Ou podemos?

Exemplo 1

Digamos, a Vacina A dá um P-Value de 0,2, a Vacina B dá 0,058, a Vacina C dá 0,4, a Vacina D dá 0,02, a Vacina E dá 0,07.

Agora, pelos resultados acima, uma maneira ingênua de deduzir será que a Vacina D é a que reduz significativamente o tempo de recuperação e pode ser usada como a Vacina do CoronaVirus. Mas podemos realmente dizer isso ainda? Não. Se o fizermos, podemos ser P-Hacking. Como isso pode ser um falso positivo.

Exemplo 2

Ok, vamos ver de outra forma. Considere que temos uma Vacina X e certamente sabemos que esta Vacina é inútil e não tem efeito no tempo de recuperação. Ainda realizamos 10 testes de hipóteses por diferentes amostras aleatórias a cada vez com P-Value de 0,05. Digamos que obtivemos os seguintes valores P em nossos 10 testes: 0,8, 0,7, 0,78, 0,65, 0,03 , 0,1, 0,4, 0,09, 0,6, 0,75. Agora, se tivéssemos que considerar os testes acima, o teste com um P-Value surpreendentemente baixo de 0,03 nos faria rejeitar a Hipótese Nula, mas na realidade não foi.

Então, o que vemos dos exemplos acima? Em essência, quando dizemos que alfa = 0,05 estabelecemos um intervalo de confiança de 95%. E isso significa que 5% dos testes ainda resultarão em erros como acima.

Problema de teste múltiplo

Uma maneira de resolver isso seria aumentar o número de testes. Portanto, quanto mais testes, mais facilmente você pode dizer que o número máximo de testes está resultando em rejeição de Null. Mas também, mais testes significarão que haverá mais falsos positivos (5% do total de testes em nosso caso). 5 em 100, 50 em 1000 ou 500 em 10.000! Isso também é chamado de Problema de Teste Múltiplo .

Taxa de descoberta falsa

Uma das maneiras de resolver os problemas acima é ajustar todo o P-Value usando um mecanismo chamado False Discovery Rate (FDR). FDR é um ajuste matemático dos P-Values ​​que os aumenta em alguns valores e, no final, os P-Values ​​que incorretamente caíram, podem ser ajustados para valores superiores a 0,05.

Aprenda : 8 habilidades importantes para cientistas de dados

# Hack 2

Agora considere um caso do exemplo em que a Vacina B deu um valor P de 0,058. Você não ficaria tentado a adicionar mais alguns dados e testar novamente para ver se o P-Value diminui? Digamos, você adiciona mais alguns pontos de dados e o valor P para a Vacina B passou a ser 0,048. Isso é legítimo? Não, você seria novamente P-Hacking. Não podemos alterar ou adicionar dados para se adequar aos nossos testes posteriormente e o tamanho exato da amostra precisa ser decidido antes de realizar os testes por meio da Análise de Poder .

A análise de poder nos diz o tamanho certo da amostra que precisamos para ter o máximo de chances de rejeitar corretamente a hipótese nula e não sermos enganados.

# Hack 3

Mais um erro que você não deve cometer é alterar o alfa depois de realizar os experimentos. Então, quando você vê um P-Value de 0,058, você pensa e se meu alfa fosse 0,06?

Mas você não pode alterá-lo após o início do experimento.

Deve ler : Como se tornar um cientista de dados?

Antes de você ir

Teste de hipóteses e valores-P é um assunto complicado e precisa ser cuidadosamente entendido antes de ter qualquer dedução. O Poder Estatístico e a Análise de Poder são uma parte importante disso que precisa ser lembrada antes de iniciar os testes.

Se você está curioso para aprender sobre ciência de dados, confira o PG Diploma in Data Science do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

O que você entende por P-Hacking?

P-Hacking ou dragagem de dados é um método para fazer mau uso das técnicas de análise de dados para encontrar padrões em dados que parecem significativos, mas não são. Esse método afeta negativamente o estudo, pois oferece falsas promessas de fornecer padrões de dados significativos que, por sua vez, podem levar a um aumento drástico no número de falsos positivos.

P-hacking não pode ser prevenido completamente, mas existem alguns métodos que certamente podem reduzi-lo e ajudar a evitar a armadilha.

O que devo ter em mente para evitar p-hacking?

Você pode usar algumas práticas seguras para minimizar as instâncias de p-hacking. Você pode primeiro fazer um plano detalhado dos testes a serem realizados e depois registrá-lo em um registro online. Você deve garantir que permite que o teste completo seja executado primeiro e não interrompa no meio, mesmo que o valor-p necessário seja alcançado.

Além dessas medidas, você também pode começar com um conjunto de dados de alta qualidade para evitar chances de erro. Todas essas medidas de segurança definitivamente ajudarão você a evitar a dragagem de dados em grande medida.

O que é taxa de falsa descoberta?

Esta é uma das abordagens mais avançadas para resolver os problemas relacionados ao p-hacking. Este método permite ajustar os valores de p para cada teste. Ao contrário de outros métodos, ele não reduz os resultados falso-positivos, mas os descobre. Isso o torna mais significativo do que outros métodos, como a correção de Bonferroni, e mais preciso para encontrar resultados significativos.

Esses valores-p ajustados também são conhecidos como valores-q. Existem outras versões dessa abordagem FDR, como a abordagem FDR otimizada.