P-Hacking Nedir ve 2022'de Nasıl Önlenir?

Yayınlanan: 2021-01-02

İstatistiksel Analiz, Veri Bilimi ve analizinin önemli bir parçasıdır. İstatistikte en önemli kavramlardan biri Hipotez Testi ve P-Değerleridir. P-Değerini yorumlamak zor olabilir ve yanlış yapıyor olabilirsiniz. P-Hack'e Dikkat!

Bu eğitimin sonunda aşağıdaki bilgilere sahip olacaksınız:

P-Değerleri
Hipotez nasıl reddedilir/kabul edilir
P-Hacking nedir ve nasıl önlenir?
İstatistiksel Güç Nedir?

Hemen dalalım!

İçindekiler

P-Değerleri nedir?

P değerleri, örnek verilerin boş hipotezin doğru olduğunu ne kadar iyi desteklediğini değerlendirir. Örnek verilerinizin sıfır hipotezi ile ne kadar doğru olduğunu ölçer.

İstatistiksel testler yapılırken, teste başlamadan önce bir eşik değeri veya alfa ayarlanmalıdır. Bunun için ortak bir değer, olasılık olarak düşünülebilecek 0,05'tir. P değerleri, sonucun o alfa kadar nadir veya hatta daha nadir elde edilmesi olasılığı olarak tanımlanır.

Bu nedenle, eğer P-değerimizi bu alfadan daha düşük alırsak, bu istatistiksel testimizin tesadüfen meydana gelmediği ve gerçekten önemli olduğu anlamına gelir. Yani, eğer P-Değerimiz 0.04 gelirse, Sıfır Hipotezini reddettiğimizi söylüyoruz.

Düşük bir P değeri, numunenizin tüm popülasyon için boş hipotezi reddedebileceğinize dair yeterli kanıt sağladığını gösterir. Bizim durumumuzda 0,05'ten küçük bir P-Değeriniz varsa, o zaman boş hipotezin reddedilebileceğini güvenle söyleyebiliriz. Başka bir deyişle, popülasyondan aldığınız örnek tamamen tesadüfen oluşmadı ve deneyin gerçekten de önemli bir etkisi oldu.

Peki ne yanlış gidebilir?

Alfa'dan küçük herhangi bir P değeri almanın bize Sıfır Hipotezini güvenle reddetme özgürlüğü verdiğini söylediğimizde, deneyimizin kendisi doğru resmi göstermiyorsa hata yapıyor olabiliriz! Başka bir deyişle, yanlış bir pozitif olabilir.

P-Hackleme nedir?

İstatistiksel analizden yanlış bir şekilde yararlandığımızda ve yanlış bir şekilde sıfır hipotezini reddedebileceğimiz sonucuna vardığımızda P-Hack yaptığımızı söylüyoruz. Bunu ayrıntılı olarak anlayalım.

# Hack 1

Hangisinin hastaların iyileşme süresi üzerinde gerçek etkisi olduğunu kontrol etmemiz gereken 5 tip CoronaVirus adayı aşımız olduğunu düşünün. Diyelim ki 5 çeşit aşı için tek tek Hipotez Testleri yapıyoruz. Alfayı 0,05 olarak ayarladık. Dolayısıyla herhangi bir aşı için P-Değeri bundan daha az gelirse, Sıfır Hipotezini reddedebileceğimizi söylüyoruz. Yoksa yapabilir miyiz?

örnek 1

Diyelim ki, Aşı A 0.2'lik bir P-Değeri veriyor, Aşı B 0.058 veriyor, Aşı C 0.4 veriyor, Aşı D 0.02 veriyor, Aşı E 0.07 veriyor.

Şimdi, yukarıdaki sonuçlara göre, D Aşısının iyileşme süresini önemli ölçüde azaltan ve CoronaVirüs Aşısı olarak kullanılabileceği sonucuna varmanın naif bir yolu olacaktır. Ama henüz bunu gerçekten söyleyebilir miyiz? Hayır. Eğer yaparsak, P-Hacking olabiliriz. Çünkü bu yanlış bir pozitif olabilir.

Örnek 2

Tamam, başka bir yoldan gidelim. Bir X Aşımız olduğunu düşünün ve bu Aşının işe yaramaz olduğunu ve iyileşme süresi üzerinde hiçbir etkisi olmadığını kesinlikle biliyoruz. Yine de her seferinde P-Değeri 0,05 olan farklı rastgele örneklerle 10 hipotez testi yapıyoruz. 10 testimizde şu P değerlerini aldığımızı varsayalım: 0.8, 0.7, 0.78, 0.65, 0.03 , 0.1, 0.4, 0.09, 0.6, 0.75. Şimdi, yukarıdaki testleri dikkate almamız gerekseydi, şaşırtıcı derecede düşük P-Değeri 0.03 olan test, Sıfır Hipotezini reddetmemize neden olurdu, ama gerçekte öyle değildi.

Peki yukarıdaki örneklerden ne görüyoruz? Özünde, alfa = 0,05 dediğimizde %95'lik bir güven aralığı belirledik. Ve bu, testlerin %5'inin yine de yukarıdaki gibi hatalarla sonuçlanacağı anlamına gelir.

Çoklu Test Problemi

Bunun üstesinden gelmenin bir yolu, test sayısını artırmak olacaktır. Böylece daha fazla test, maksimum test sayısının Null'un reddedilmesine neden olduğunu daha kolay söyleyebilirsiniz. Ama aynı zamanda, daha fazla test, daha fazla yanlış pozitif olacağı anlamına gelecektir (bizim durumumuzda toplam testlerin %5'i). 100 üzerinden 5, 1000 üzerinden 50 veya 10.000 üzerinden 500! Buna Çoklu Test Problemi de denir .

Yanlış Keşif Oranı

Yukarıdaki sorunların üstesinden gelmenin yollarından biri, Yanlış Keşif Oranı (FDR) adı verilen bir mekanizma kullanarak tüm P-Değerini ayarlamaktır . FDR, onları bazı değerlerle artıran P-Değerlerinin matematiksel bir ayarıdır ve sonunda, yanlışlıkla daha düşük gelen P-Değerleri, 0.05'ten daha yüksek değerlere ayarlanabilir.

Öğrenin : Veri Bilimcileri için 8 Önemli Beceri

# Hack 2

Şimdi, Aşı B'nin 0.058'lik bir P-değeri verdiği örnekten bir durumu ele alalım. Biraz daha veri eklemek ve P-Değerinin düşüp düşmediğini görmek için tekrar test etmek cazip olmaz mıydı? Diyelim ki birkaç veri noktası daha eklediniz ve Aşı B için P değeri 0.048 oldu. Bu yasal mı? Hayır, yine P-Hack olacaksın. Daha sonra testlerimize uyacak şekilde veri ekleyemiyoruz veya değiştiremiyoruz ve testler yapılmadan önce Güç Analizi yapılarak kesin numune büyüklüğüne karar verilmesi gerekiyor .

Güç Analizi, sıfır hipotezini doğru bir şekilde reddetmek ve kandırılmamak için maksimum şansa sahip olmamız için gereken doğru örnek boyutunu söyler.

# Hack 3

Yapmamanız gereken bir hata daha, deneyleri yaptıktan sonra alfayı değiştirmektir. Yani 0.058'lik bir P-Değeri gördüğünüzde, ya benim alfam 0.06 olsaydı?

Ancak, denemeniz başladığında bunu değiştiremezsiniz.

Okumalısınız : Nasıl Veri Bilimcisi Olunur?

Gitmeden önce

Hipotez Testi ve P-Değerleri zor bir konudur ve herhangi bir kesinti yapmadan önce dikkatlice anlaşılması gerekir. İstatistiksel Güç ve Güç Analizi, testlere başlamadan önce akılda tutulması gereken bunun önemli bir parçasıdır.

Veri bilimi hakkında bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

P-Hacking'den ne anlıyorsunuz?

P-Hacking veya Veri tarama, verilerde önemli görünen ancak önemli olmayan kalıpları bulmak için veri analizi tekniklerini kötüye kullanma yöntemidir. Bu yöntem, önemli veri kalıpları sağlamak için yanlış sözler verdiği için çalışmayı olumsuz etkiler ve bu da yanlış pozitiflerin sayısında ciddi bir artışa yol açabilir.

P-hack tamamen engellenemez ancak kesinlikle azaltabilecek ve tuzaktan kaçınmaya yardımcı olabilecek bazı yöntemler vardır.

P-hack'ten kaçınmak için nelere dikkat etmeliyim?

P-hack vakalarını en aza indirmek için bazı güvenli uygulamaları kullanabilirsiniz. Önce yapılacak testlerin ayrıntılı bir planını yapabilir ve ardından çevrimiçi bir kayıt defterine kaydedebilirsiniz. Gerekli p-değerine ulaşılsa bile, önce tam testin yürütülmesine izin verdiğinizden ve arada kesinti yapmadığınızdan emin olmalısınız.

Bu önlemlerin dışında, hata olasılığını önlemek için yüksek kaliteli bir veri seti ile başlamayı da sağlayabilirsiniz. Tüm bu güvenlik önlemleri, kesinlikle veri taramasından büyük ölçüde kaçınmanıza yardımcı olacaktır.

Yanlış Keşif Oranı nedir?

Bu, p-hack ile ilgili sorunları çözmek için en gelişmiş yaklaşımlardan biridir. Bu yöntem, her test için p değerlerini ayarlamanıza olanak tanır. Diğer yöntemlerden farklı olarak yanlış pozitif sonuçları azaltmaz, aksine keşfeder. Bu, Bonferroni düzeltmesi gibi diğer yöntemlerden daha önemli ve önemli sonuçların bulunmasında daha doğru olmasını sağlar.

Bu ayarlanmış p değerleri aynı zamanda q değerleri olarak da bilinir. Optimize edilmiş FDR yaklaşımı gibi bu FDR yaklaşımının başka versiyonları da vardır.