P-Hacking คืออะไรและจะหลีกเลี่ยงได้อย่างไรในปี 2565
เผยแพร่แล้ว: 2021-01-02การวิเคราะห์ทางสถิติเป็นส่วนสำคัญของ Data Science และการวิเคราะห์ แนวคิดที่สำคัญที่สุดอย่างหนึ่งในสถิติคือการทดสอบสมมติฐานและค่า P การตีความค่า P-Value อาจเป็นเรื่องยากและคุณอาจทำผิด ระวัง P-hacking!
ในตอนท้ายของบทช่วยสอนนี้ คุณจะมีความรู้ดังต่อไปนี้:
- P-ค่า
- วิธีปฏิเสธ/ยอมรับสมมติฐาน
- P-Hacking คืออะไรและจะหลีกเลี่ยงได้อย่างไร
- พลังทางสถิติคืออะไร
มาดำดิ่งกันเลย!
สารบัญ
P-Value คืออะไร?
ค่า P จะประเมินว่าข้อมูลตัวอย่างสนับสนุนว่าสมมติฐานว่างเป็นจริงได้ดีเพียงใด มันวัดว่าข้อมูลตัวอย่างของคุณถูกต้องแค่ไหนด้วยสมมติฐานว่าง
ขณะทำการทดสอบทางสถิติ ต้องตั้งค่าขีดจำกัดหรืออัลฟาก่อนเริ่มการทดสอบ ค่าทั่วไปของมันคือ 0.05 ซึ่งถือได้ว่าเป็นความน่าจะเป็น ค่า P ถูกกำหนดให้เป็นความน่าจะเป็นที่จะได้ผลลัพธ์ที่หายากเท่ากับอัลฟ่านั้นหรือหายากกว่านั้น
ดังนั้น หากเราได้ค่า P น้อยกว่าอัลฟานั้น นั่นหมายความว่าการทดสอบทางสถิติของเราไม่ได้เกิดขึ้นโดยบังเอิญ และมันมีความสำคัญจริงๆ ดังนั้น ถ้า P-Value ของเราออกมา เช่น 0.04 เราบอกว่าเราปฏิเสธ Null Hypothesis
ค่า P ต่ำแสดงว่ากลุ่มตัวอย่างของคุณมีหลักฐานเพียงพอว่าคุณสามารถปฏิเสธสมมติฐานว่างสำหรับประชากรทั้งหมดได้ หากคุณได้ค่า P-Value น้อยกว่า 0.05 ในกรณีของเรา คุณสามารถพูดได้อย่างปลอดภัยว่าสมมติฐานว่างสามารถปฏิเสธได้ กล่าวอีกนัยหนึ่ง ตัวอย่างที่คุณเก็บมาจากประชากรไม่ได้เกิดขึ้นโดยบังเอิญ และการทดลองมีผลอย่างมากจริงๆ
แล้วจะมีอะไรผิดพลาด?
ในขณะที่เราบอกว่าการได้รับค่า P ที่น้อยกว่าอัลฟาทำให้เรามีอิสระในการปฏิเสธ Null Hypothesis ได้อย่างปลอดภัย เราอาจทำผิดพลาดหากการทดลองของเราไม่ได้แสดงภาพที่ถูกต้อง! กล่าวอีกนัยหนึ่งอาจเป็นผลบวกที่ผิดพลาด
P-Hacking คืออะไร?
เราบอกว่าเรา P-Hacked เมื่อเราใช้ประโยชน์จากการวิเคราะห์ทางสถิติอย่างไม่ถูกต้อง และสรุปอย่างไม่ถูกต้องว่าเราสามารถปฏิเสธสมมติฐานว่างได้ มาทำความเข้าใจในรายละเอียดนี้กัน
# แฮ็ค 1
พิจารณาว่าเรามีวัคซีนต้านไวรัสโคโรน่าไวรัส 5 ประเภทกับเรา ซึ่งเราต้องตรวจสอบว่าวัคซีนชนิดใดมีผลจริงต่อเวลาพักฟื้นของผู้ป่วย สมมติว่าเราทำการทดสอบสมมติฐานสำหรับวัคซีนทั้ง 5 ชนิดทีละรายการ เราตั้งค่าอัลฟ่าเป็น 0.05 และด้วยเหตุนี้หาก P-Value สำหรับวัคซีนใด ๆ มีค่าน้อยกว่านั้น เราบอกว่าเราสามารถปฏิเสธ Null Hypothesis ได้.. หรือจะทำได้?
ตัวอย่างที่ 1
สมมุติว่าวัคซีน A ให้ P-Value เท่ากับ 0.2 วัคซีน B ให้ 0.058 วัคซีน C ให้ 0.4 วัคซีน D ให้ 0.02 วัคซีน E ให้ 0.07
จากผลลัพธ์ข้างต้น วิธีที่ไร้เดียงสาในการอนุมานได้ว่าวัคซีนดีเป็นวัคซีนที่ช่วยลดเวลาพักฟื้นได้อย่างมาก และสามารถใช้เป็นวัคซีนโคโรน่าไวรัสได้ แต่เราสามารถพูดอย่างนั้นได้จริงๆเหรอ? ไม่ ถ้าเราทำ เราอาจจะเป็น P-Hacking เนื่องจากอาจเป็นผลบวกลวง
ตัวอย่าง 2
โอเค เอาเป็นอย่างอื่น พิจารณาว่าเรามีวัคซีน X และเรารู้ดีว่าวัคซีนนี้ไม่มีประโยชน์และไม่มีผลต่อเวลาพักฟื้น เรายังคงทำการทดสอบสมมติฐาน 10 ครั้งโดยสุ่มตัวอย่างที่แตกต่างกันในแต่ละครั้งโดยมีค่า P-Value เท่ากับ 0.05 สมมติว่าเราได้รับค่า P ต่อไปนี้ในการทดสอบ 10 รายการของเรา: 0.8, 0.7, 0.78, 0.65, 0.03 , 0.1, 0.4, 0.09, 0.6, 0.75 ถ้าเราต้องพิจารณาการทดสอบข้างต้น การทดสอบที่มีค่า P-Value ต่ำอย่างน่าประหลาดใจที่ 0.03 จะทำให้เราปฏิเสธ Null Hypothesis แต่ในความเป็นจริง มันไม่ใช่

เราเห็นอะไรจากตัวอย่างข้างต้นบ้าง? โดยพื้นฐานแล้ว เมื่อเราบอกว่าอัลฟา = 0.05 เรากำหนดช่วงความมั่นใจไว้ที่ 95% และนั่นหมายความว่า 5% ของการทดสอบจะยังคงส่งผลให้เกิดข้อผิดพลาดดังที่กล่าวไว้ข้างต้น
ปัญหาการทดสอบหลายครั้ง
วิธีหนึ่งในการแก้ไขปัญหานี้คือการเพิ่มจำนวนการทดสอบ การทดสอบมากขึ้น คุณสามารถพูดได้ง่ายขึ้นว่าจำนวนการทดสอบสูงสุดส่งผลให้เกิดการปฏิเสธค่า Null นอกจากนี้ การทดสอบที่มากขึ้นจะทำให้มีผลบวกที่ผิดพลาดมากขึ้น (5% ของการทดสอบทั้งหมดในกรณีของเรา) 5 จาก 100, 50 จาก 1,000 หรือ 500 จาก 10,000! ซึ่งเรียกอีกอย่างว่า ปัญหาการทดสอบหลาย รายการ
อัตราการค้นพบเท็จ
วิธีหนึ่งในการแก้ไขปัญหาข้างต้นคือการปรับ P-Value ทั้งหมดโดยใช้กลไกที่เรียกว่า False Discovery Rate (FDR) FDR คือการปรับทางคณิตศาสตร์ของค่า P ซึ่งเพิ่มขึ้นตามค่าบางค่า และในท้ายที่สุด ค่า P ที่ลดลงอย่างไม่ถูกต้อง อาจได้รับการปรับเป็นค่าที่สูงกว่า 0.05
เรียนรู้ : 8 ทักษะที่สำคัญสำหรับนักวิทยาศาสตร์ข้อมูล
#แฮ็ค2
ทีนี้ลองพิจารณากรณีจากตัวอย่างที่วัคซีน B ให้ค่า P เท่ากับ 0.058 คุณจะไม่ลองเพิ่มข้อมูลและทดสอบใหม่เพื่อดูว่าค่า P ลดลงหรือไม่ สมมติว่า คุณเพิ่มจุดข้อมูลอีกสองสามจุด และค่า P สำหรับวัคซีน B เท่ากับ 0.048 นี้ถูกต้องตามกฎหมาย? ไม่ คุณจะเป็น P-Hacking อีกครั้ง เราไม่สามารถเปลี่ยนแปลงหรือเพิ่มข้อมูลเพื่อให้เหมาะกับการทดสอบของเราในภายหลัง และต้องตัดสินใจขนาดตัวอย่างที่แน่นอนก่อนทำการทดสอบโดยทำการ วิเคราะห์ กำลัง
การวิเคราะห์กำลังบอกเราถึงขนาดกลุ่มตัวอย่างที่ถูกต้อง เราจำเป็นต้องมีโอกาสสูงสุดในการปฏิเสธสมมติฐานว่างอย่างถูกต้องและไม่โดนหลอก
#แฮ็ค3
ข้อผิดพลาดอีกอย่างหนึ่งที่คุณไม่ควรทำคือเปลี่ยนอัลฟ่าหลังจากทำการทดสอบ เมื่อคุณเห็นค่า P-Value เท่ากับ 0.058 คุณคิดว่าถ้าอัลฟ่าของฉันเป็น 0.06 ล่ะ?
แต่คุณไม่สามารถเปลี่ยนแปลงได้เมื่อการทดสอบของคุณเริ่มต้นขึ้น
ต้องอ่าน : จะเป็น Data Scientist ได้อย่างไร?
ก่อนที่คุณจะไป
การทดสอบสมมติฐานและ P-Values เป็นเรื่องที่ยุ่งยากและจำเป็นต้องทำความเข้าใจให้ถี่ถ้วนก่อนที่จะมีการหักเงินใดๆ การวิเคราะห์กำลังทางสถิติและกำลังเป็นส่วนสำคัญของสิ่งนี้ ซึ่งจำเป็นต้องคำนึงถึงก่อนเริ่มการทดสอบ
หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ให้ลองดูประกาศนียบัตร PG ด้านวิทยาศาสตร์ข้อมูลของ IIIT-B และ upGrad ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1- on-1 กับที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ
คุณเข้าใจอะไรจาก P-Hacking?
P-Hacking หรือ Data dredging เป็นวิธีการใช้เทคนิคการวิเคราะห์ข้อมูลในทางที่ผิดเพื่อค้นหารูปแบบในข้อมูลที่ปรากฏว่ามีนัยสำคัญแต่ไม่มีนัยสำคัญ วิธีการนี้ส่งผลในทางลบต่อการศึกษา เนื่องจากเป็นการให้คำมั่นสัญญาที่ผิดพลาดในการจัดเตรียมรูปแบบข้อมูลที่มีนัยสำคัญ ซึ่งอาจส่งผลให้จำนวนผลบวกลวงเพิ่มขึ้นอย่างมาก
P-hacking ไม่สามารถป้องกันได้อย่างสมบูรณ์ แต่มีบางวิธีที่สามารถลดและช่วยหลีกเลี่ยงกับดักได้อย่างแน่นอน
ฉันควรจำอะไรไว้เพื่อหลีกเลี่ยงการแฮ็ก p-hacking
คุณสามารถใช้แนวทางปฏิบัติที่ปลอดภัยเพื่อลดอินสแตนซ์ของการแฮ็ก p-hacking ขั้นแรก คุณสามารถจัดทำแผนการทดสอบโดยละเอียดเพื่อดำเนินการ จากนั้นจึงลงทะเบียนในรีจิสทรีทางออนไลน์ คุณต้องแน่ใจว่าคุณอนุญาตให้ทำการทดสอบทั้งหมดก่อนและไม่ขัดจังหวะระหว่างนั้น แม้ว่าจะบรรลุค่า p ที่ต้องการแล้วก็ตาม
นอกจากมาตรการเหล่านี้แล้ว คุณยังสามารถเริ่มต้นด้วยชุดข้อมูลคุณภาพสูงเพื่อหลีกเลี่ยงโอกาสที่จะเกิดข้อผิดพลาด มาตรการด้านความปลอดภัยทั้งหมดนี้จะช่วยให้คุณหลีกเลี่ยงการขุดลอกข้อมูลในระดับที่ดีได้อย่างแน่นอน
อัตราการค้นพบเท็จคืออะไร?
นี่เป็นหนึ่งในแนวทางที่ทันสมัยที่สุดในการแก้ปัญหาเกี่ยวกับการแฮ็ก p วิธีนี้ช่วยให้คุณปรับค่า p สำหรับการทดสอบแต่ละครั้ง ไม่เหมือนกับวิธีอื่นๆ ตรงที่มันไม่ลดผลลัพธ์ที่เป็นเท็จ แต่กลับค้นพบมัน สิ่งนี้ทำให้มีความสำคัญมากกว่าวิธีการอื่นๆ เช่น การแก้ไข Bonferroni และแม่นยำยิ่งขึ้นในการค้นหาผลลัพธ์ที่สำคัญ
ค่า p ที่ปรับแล้วเหล่านี้เรียกอีกอย่างว่าค่า q มีแนวทาง FDR เวอร์ชันอื่นเช่นแนวทาง FDR ที่ปรับให้เหมาะสม