2022년 P-해킹이란 무엇이며 어떻게 피해야 할까요?

게시 됨: 2021-01-02

통계 분석은 데이터 과학 및 분석의 필수적인 부분입니다. 통계에서 가장 중요한 개념 중 하나는 가설 검정과 P-값입니다. P-값을 해석하는 것은 까다로울 수 있으며 잘못하고 있을 수 있습니다. P-Hacking을 조심하세요!

이 튜토리얼을 마치면 아래와 같은 지식을 갖게 될 것입니다.

P-값
가설을 기각/인정하는 방법
P-Hacking이란 무엇이며 어떻게 방지할 수 있습니까?
통계력이란?

바로 뛰어들자!

P-값이란 무엇입니까?

P-값은 표본 데이터가 귀무 가설이 참임을 얼마나 잘 뒷받침하는지 평가합니다. 귀무 가설과 함께 표본 데이터가 얼마나 정확한지 측정합니다.

통계 테스트를 수행하는 동안 테스트를 시작하기 전에 임계값 또는 알파를 설정해야 합니다. 일반적인 값은 0.05로 확률로 생각할 수 있습니다. P-값은 그 알파만큼 희귀하거나 더 희귀한 결과를 얻을 확률로 정의됩니다.

따라서 P-값이 해당 알파보다 작다면 통계 테스트가 우연히 발생하지 않았으며 실제로 유의미했습니다. 따라서 P-값이 0.04가 되면 귀무 가설을 기각한다고 말합니다.

낮은 P 값은 표본이 전체 모집단에 대한 귀무 가설을 기각할 수 있다는 충분한 증거를 제공한다는 것을 나타냅니다. 우리의 경우 P-값이 0.05보다 작으면 귀무 가설이 기각될 수 있다고 안전하게 말할 수 있습니다. 다시 말해, 모집단에서 추출한 표본은 순전히 우연이 아니며 실험이 실제로 상당한 영향을 미쳤습니다.

그러면 무엇이 잘못될 수 있습니까?

알파보다 작은 P 값을 얻으면 귀무 가설을 안전하게 기각할 수 있다고 말하면서 실험 자체가 올바른 그림을 보여주지 않는다면 실수를 저지를 수 있습니다! 즉, 거짓 긍정일 수 있습니다.

P-해킹이란?

통계 분석을 잘못 활용하고 귀무 가설을 기각할 수 있다는 잘못된 결론을 내릴 때 P-Hack이라고 말합니다. 이것을 자세히 이해합시다.

# 해킹 1

우리가 코로나바이러스 후보 백신 5가지 유형을 가지고 있다고 가정해 보겠습니다. 그중 어떤 것이 환자의 회복 시간에 실제로 영향을 미치는지 확인해야 합니다. 그래서 5가지 모든 백신에 대해 하나씩 가설 검정을 한다고 가정해 봅시다. 알파를 0.05로 설정했습니다. 따라서 어떤 백신에 대한 P-값이 그 미만이면 귀무가설을 기각할 수 있습니다. 아니면 우리가 할 수 있습니까?

실시예 1

예를 들어, 백신 A는 0.2의 P-값을 제공하고, 백신 B는 0.058을 제공하고, 백신 C는 0.4를 제공하고, 백신 D는 0.02를 제공하고, 백신 E는 0.07을 제공한다고 가정해 보겠습니다.

이제 위의 결과를 보면 백신 D가 회복 시간을 현저히 단축시켜 코로나바이러스 백신으로 사용할 수 있다는 것이 순진한 추론이 될 것입니다. 그러나 우리는 아직 그것을 정말로 말할 수 있습니까? 아니요. 그렇게 하면 P-Hacking이 될 수 있습니다. 이것은 거짓 긍정일 수 있기 때문입니다.

실시예 2

좋아, 다른 방법으로 가자. 우리에게 백신 X가 있고 이 백신이 쓸모없고 회복 시간에 영향을 미치지 않는다는 것을 확실히 알고 있다고 생각하십시오. 여전히 우리는 0.05의 P-값으로 매번 다른 무작위 표본에 의해 10개의 가설 검정을 수행합니다. 10번의 테스트에서 0.8, 0.7, 0.78, 0.65, 0.03 , 0.1, 0.4, 0.09, 0.6, 0.75 의 P 값을 얻었다고 가정해 보겠습니다 . 이제 위의 검정을 고려해야 한다면 P-값이 0.03으로 놀라울 정도로 낮은 검정을 사용하면 귀무가설을 기각할 수 있지만 실제로는 그렇지 않습니다.

그러면 위의 예에서 무엇을 볼 수 있습니까? 본질적으로 알파 = 0.05라고 말할 때 신뢰 구간을 95%로 설정합니다. 이는 테스트의 5%에서 여전히 위와 같은 오류가 발생한다는 것을 의미합니다.

다중 테스트 문제

이를 해결하는 한 가지 방법은 테스트 수를 늘리는 것입니다. 따라서 테스트가 많을수록 최대 테스트 수가 Null을 거부한다고 더 쉽게 말할 수 있습니다. 그러나 테스트가 많을수록 위양성(우리의 경우 전체 테스트의 5%)이 더 많이 발생합니다. 100 중 5, 1000 중 50 또는 10,000 중 500! 이것은 다중 테스트 문제 라고도 합니다 .

거짓 발견 비율

위의 문제를 해결하는 방법 중 하나는 FDR( False Discovery Rate ) 이라는 메커니즘을 사용하여 모든 P-값을 조정하는 것 입니다. FDR은 P-값을 수학적으로 조정하여 일부 값만큼 증가시키고 결국 잘못 낮아진 P-값은 0.05보다 높은 값으로 조정될 수 있습니다.

배우기 : 데이터 과학자를 위한 8가지 중요한 기술

# 해킹 2

이제 백신 B가 0.058의 P-값을 제공한 예를 고려하십시오. 데이터를 더 추가하고 P-값이 감소하는지 다시 테스트하고 싶지 않습니까? 데이터 포인트를 몇 개 더 추가하면 백신 B의 P-값이 0.048이 됩니다. 이게 합법인가요? 아니요, 당신은 다시 P-Hacking이 될 것입니다. 나중에 테스트에 맞게 데이터를 변경하거나 추가할 수 없으며 정확한 표본 크기는 검정을 수행하기 전에 검정을 수행하여 결정해야 합니다 .

검정력 분석은 귀무 가설을 올바르게 기각하고 속지 않을 최대 기회를 얻기 위해 필요한 올바른 표본 크기를 알려줍니다.

# 해킹 3

한 가지 더 하지 말아야 할 실수는 실험을 수행한 후 알파를 변경하는 것입니다. 따라서 P-값이 0.058인 경우 내 알파가 0.06이면 어떻게 될까요?

그러나 실험이 시작되면 변경할 수 없습니다.

반드시 읽어야 합니다: 데이터 과학자가 되려면?

가기 전에

가설 테스트 및 P-값은 까다로운 주제이며 공제하기 전에 주의 깊게 이해해야 합니다. 통계적 검정력 및 검정력 분석은 테스트를 시작하기 전에 염두에 두어야 하는 중요한 부분입니다.

데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하세요. 이 PG 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

P-Hacking으로 무엇을 이해합니까?

P-Hacking 또는 데이터 준설은 데이터 분석 기술을 오용하여 데이터에서 중요해 보이지만 그렇지 않은 패턴을 찾는 방법입니다. 이 방법은 중요한 데이터 패턴을 제공하기 위해 잘못된 약속을 제공하여 잘못된 긍정의 수가 급격히 증가할 수 있기 때문에 연구에 부정적인 영향을 미칩니다.

P-hacking을 완전히 막을 수는 없지만 확실히 줄이고 함정을 피하는 데 도움이 되는 몇 가지 방법이 있습니다.

p-hacking을 피하려면 무엇을 염두에 두어야 합니까?

몇 가지 안전한 방법을 사용하여 p-hacking의 인스턴스를 최소화할 수 있습니다. 먼저 수행할 테스트에 대한 세부 계획을 세운 다음 온라인 레지스트리에 등록할 수 있습니다. 필요한 p-값에 도달하더라도 전체 테스트가 먼저 실행되고 중간에 중단되지 않도록 해야 합니다.

이러한 조치 외에도 오류 가능성을 피하기 위해 고품질 데이터 세트로 시작하도록 할 수도 있습니다. 이러한 모든 안전 조치는 데이터 준설을 크게 방지하는 데 확실히 도움이 됩니다.

허위 발견률이란 무엇입니까?

이것은 p-hacking과 관련된 문제를 해결하기 위한 가장 진보된 접근 방식 중 하나입니다. 이 방법을 사용하면 각 검정에 대한 p-값을 조정할 수 있습니다. 다른 방법과 달리 위양성 결과를 줄이지 않고 대신 발견합니다. 이것은 Bonferroni 보정과 같은 다른 방법보다 더 중요하고 중요한 결과를 찾는 데 더 정확합니다.

이러한 조정된 p-값을 q-값이라고도 합니다. 최적화된 FDR 접근 방식과 같은 이 FDR 접근 방식의 다른 버전이 있습니다.