P-Hacking คืออะไรและจะหลีกเลี่ยงได้อย่างไรในปี 2565

เผยแพร่แล้ว: 2021-01-02

การวิเคราะห์ทางสถิติเป็นส่วนสำคัญของ Data Science และการวิเคราะห์ แนวคิดที่สำคัญที่สุดอย่างหนึ่งในสถิติคือการทดสอบสมมติฐานและค่า P การตีความค่า P-Value อาจเป็นเรื่องยากและคุณอาจทำผิด ระวัง P-hacking!

ในตอนท้ายของบทช่วยสอนนี้ คุณจะมีความรู้ดังต่อไปนี้:

  • P-ค่า
  • วิธีปฏิเสธ/ยอมรับสมมติฐาน
  • P-Hacking คืออะไรและจะหลีกเลี่ยงได้อย่างไร
  • พลังทางสถิติคืออะไร

มาดำดิ่งกันเลย!

สารบัญ

P-Value คืออะไร?

ค่า P จะประเมินว่าข้อมูลตัวอย่างสนับสนุนว่าสมมติฐานว่างเป็นจริงได้ดีเพียงใด มันวัดว่าข้อมูลตัวอย่างของคุณถูกต้องแค่ไหนด้วยสมมติฐานว่าง

ขณะทำการทดสอบทางสถิติ ต้องตั้งค่าขีดจำกัดหรืออัลฟาก่อนเริ่มการทดสอบ ค่าทั่วไปของมันคือ 0.05 ซึ่งถือได้ว่าเป็นความน่าจะเป็น ค่า P ถูกกำหนดให้เป็นความน่าจะเป็นที่จะได้ผลลัพธ์ที่หายากเท่ากับอัลฟ่านั้นหรือหายากกว่านั้น

ดังนั้น หากเราได้ค่า P น้อยกว่าอัลฟานั้น นั่นหมายความว่าการทดสอบทางสถิติของเราไม่ได้เกิดขึ้นโดยบังเอิญ และมันมีความสำคัญจริงๆ ดังนั้น ถ้า P-Value ของเราออกมา เช่น 0.04 เราบอกว่าเราปฏิเสธ Null Hypothesis

ค่า P ต่ำแสดงว่ากลุ่มตัวอย่างของคุณมีหลักฐานเพียงพอว่าคุณสามารถปฏิเสธสมมติฐานว่างสำหรับประชากรทั้งหมดได้ หากคุณได้ค่า P-Value น้อยกว่า 0.05 ในกรณีของเรา คุณสามารถพูดได้อย่างปลอดภัยว่าสมมติฐานว่างสามารถปฏิเสธได้ กล่าวอีกนัยหนึ่ง ตัวอย่างที่คุณเก็บมาจากประชากรไม่ได้เกิดขึ้นโดยบังเอิญ และการทดลองมีผลอย่างมากจริงๆ

แล้วจะมีอะไรผิดพลาด?

ในขณะที่เราบอกว่าการได้รับค่า P ที่น้อยกว่าอัลฟาทำให้เรามีอิสระในการปฏิเสธ Null Hypothesis ได้อย่างปลอดภัย เราอาจทำผิดพลาดหากการทดลองของเราไม่ได้แสดงภาพที่ถูกต้อง! กล่าวอีกนัยหนึ่งอาจเป็นผลบวกที่ผิดพลาด

P-Hacking คืออะไร?

เราบอกว่าเรา P-Hacked เมื่อเราใช้ประโยชน์จากการวิเคราะห์ทางสถิติอย่างไม่ถูกต้อง และสรุปอย่างไม่ถูกต้องว่าเราสามารถปฏิเสธสมมติฐานว่างได้ มาทำความเข้าใจในรายละเอียดนี้กัน

# แฮ็ค 1

พิจารณาว่าเรามีวัคซีนต้านไวรัสโคโรน่าไวรัส 5 ประเภทกับเรา ซึ่งเราต้องตรวจสอบว่าวัคซีนชนิดใดมีผลจริงต่อเวลาพักฟื้นของผู้ป่วย สมมติว่าเราทำการทดสอบสมมติฐานสำหรับวัคซีนทั้ง 5 ชนิดทีละรายการ เราตั้งค่าอัลฟ่าเป็น 0.05 และด้วยเหตุนี้หาก P-Value สำหรับวัคซีนใด ๆ มีค่าน้อยกว่านั้น เราบอกว่าเราสามารถปฏิเสธ Null Hypothesis ได้.. หรือจะทำได้?

ตัวอย่างที่ 1

สมมุติว่าวัคซีน A ให้ P-Value เท่ากับ 0.2 วัคซีน B ให้ 0.058 วัคซีน C ให้ 0.4 วัคซีน D ให้ 0.02 วัคซีน E ให้ 0.07

จากผลลัพธ์ข้างต้น วิธีที่ไร้เดียงสาในการอนุมานได้ว่าวัคซีนดีเป็นวัคซีนที่ช่วยลดเวลาพักฟื้นได้อย่างมาก และสามารถใช้เป็นวัคซีนโคโรน่าไวรัสได้ แต่เราสามารถพูดอย่างนั้นได้จริงๆเหรอ? ไม่ ถ้าเราทำ เราอาจจะเป็น P-Hacking เนื่องจากอาจเป็นผลบวกลวง

ตัวอย่าง 2

โอเค เอาเป็นอย่างอื่น พิจารณาว่าเรามีวัคซีน X และเรารู้ดีว่าวัคซีนนี้ไม่มีประโยชน์และไม่มีผลต่อเวลาพักฟื้น เรายังคงทำการทดสอบสมมติฐาน 10 ครั้งโดยสุ่มตัวอย่างที่แตกต่างกันในแต่ละครั้งโดยมีค่า P-Value เท่ากับ 0.05 สมมติว่าเราได้รับค่า P ต่อไปนี้ในการทดสอบ 10 รายการของเรา: 0.8, 0.7, 0.78, 0.65, 0.03 , 0.1, 0.4, 0.09, 0.6, 0.75 ถ้าเราต้องพิจารณาการทดสอบข้างต้น การทดสอบที่มีค่า P-Value ต่ำอย่างน่าประหลาดใจที่ 0.03 จะทำให้เราปฏิเสธ Null Hypothesis แต่ในความเป็นจริง มันไม่ใช่

เราเห็นอะไรจากตัวอย่างข้างต้นบ้าง? โดยพื้นฐานแล้ว เมื่อเราบอกว่าอัลฟา = 0.05 เรากำหนดช่วงความมั่นใจไว้ที่ 95% และนั่นหมายความว่า 5% ของการทดสอบจะยังคงส่งผลให้เกิดข้อผิดพลาดดังที่กล่าวไว้ข้างต้น

ปัญหาการทดสอบหลายครั้ง

วิธีหนึ่งในการแก้ไขปัญหานี้คือการเพิ่มจำนวนการทดสอบ การทดสอบมากขึ้น คุณสามารถพูดได้ง่ายขึ้นว่าจำนวนการทดสอบสูงสุดส่งผลให้เกิดการปฏิเสธค่า Null นอกจากนี้ การทดสอบที่มากขึ้นจะทำให้มีผลบวกที่ผิดพลาดมากขึ้น (5% ของการทดสอบทั้งหมดในกรณีของเรา) 5 จาก 100, 50 จาก 1,000 หรือ 500 จาก 10,000! ซึ่งเรียกอีกอย่างว่า ปัญหาการทดสอบหลาย รายการ

อัตราการค้นพบเท็จ

วิธีหนึ่งในการแก้ไขปัญหาข้างต้นคือการปรับ P-Value ทั้งหมดโดยใช้กลไกที่เรียกว่า False Discovery Rate (FDR) FDR คือการปรับทางคณิตศาสตร์ของค่า P ซึ่งเพิ่มขึ้นตามค่าบางค่า และในท้ายที่สุด ค่า P ที่ลดลงอย่างไม่ถูกต้อง อาจได้รับการปรับเป็นค่าที่สูงกว่า 0.05

เรียนรู้ : 8 ทักษะที่สำคัญสำหรับนักวิทยาศาสตร์ข้อมูล

#แฮ็ค2

ทีนี้ลองพิจารณากรณีจากตัวอย่างที่วัคซีน B ให้ค่า P เท่ากับ 0.058 คุณจะไม่ลองเพิ่มข้อมูลและทดสอบใหม่เพื่อดูว่าค่า P ลดลงหรือไม่ สมมติว่า คุณเพิ่มจุดข้อมูลอีกสองสามจุด และค่า P สำหรับวัคซีน B เท่ากับ 0.048 นี้ถูกต้องตามกฎหมาย? ไม่ คุณจะเป็น P-Hacking อีกครั้ง เราไม่สามารถเปลี่ยนแปลงหรือเพิ่มข้อมูลเพื่อให้เหมาะกับการทดสอบของเราในภายหลัง และต้องตัดสินใจขนาดตัวอย่างที่แน่นอนก่อนทำการทดสอบโดยทำการ วิเคราะห์ กำลัง

การวิเคราะห์กำลังบอกเราถึงขนาดกลุ่มตัวอย่างที่ถูกต้อง เราจำเป็นต้องมีโอกาสสูงสุดในการปฏิเสธสมมติฐานว่างอย่างถูกต้องและไม่โดนหลอก

#แฮ็ค3

ข้อผิดพลาดอีกอย่างหนึ่งที่คุณไม่ควรทำคือเปลี่ยนอัลฟ่าหลังจากทำการทดสอบ เมื่อคุณเห็นค่า P-Value เท่ากับ 0.058 คุณคิดว่าถ้าอัลฟ่าของฉันเป็น 0.06 ล่ะ?

แต่คุณไม่สามารถเปลี่ยนแปลงได้เมื่อการทดสอบของคุณเริ่มต้นขึ้น

ต้องอ่าน : จะเป็น Data Scientist ได้อย่างไร?

ก่อนที่คุณจะไป

การทดสอบสมมติฐานและ P-Values ​​เป็นเรื่องที่ยุ่งยากและจำเป็นต้องทำความเข้าใจให้ถี่ถ้วนก่อนที่จะมีการหักเงินใดๆ การวิเคราะห์กำลังทางสถิติและกำลังเป็นส่วนสำคัญของสิ่งนี้ ซึ่งจำเป็นต้องคำนึงถึงก่อนเริ่มการทดสอบ

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ให้ลองดูประกาศนียบัตร PG ด้านวิทยาศาสตร์ข้อมูลของ IIIT-B และ upGrad ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1- on-1 กับที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

คุณเข้าใจอะไรจาก P-Hacking?

P-Hacking หรือ Data dredging เป็นวิธีการใช้เทคนิคการวิเคราะห์ข้อมูลในทางที่ผิดเพื่อค้นหารูปแบบในข้อมูลที่ปรากฏว่ามีนัยสำคัญแต่ไม่มีนัยสำคัญ วิธีการนี้ส่งผลในทางลบต่อการศึกษา เนื่องจากเป็นการให้คำมั่นสัญญาที่ผิดพลาดในการจัดเตรียมรูปแบบข้อมูลที่มีนัยสำคัญ ซึ่งอาจส่งผลให้จำนวนผลบวกลวงเพิ่มขึ้นอย่างมาก

P-hacking ไม่สามารถป้องกันได้อย่างสมบูรณ์ แต่มีบางวิธีที่สามารถลดและช่วยหลีกเลี่ยงกับดักได้อย่างแน่นอน

ฉันควรจำอะไรไว้เพื่อหลีกเลี่ยงการแฮ็ก p-hacking

คุณสามารถใช้แนวทางปฏิบัติที่ปลอดภัยเพื่อลดอินสแตนซ์ของการแฮ็ก p-hacking ขั้นแรก คุณสามารถจัดทำแผนการทดสอบโดยละเอียดเพื่อดำเนินการ จากนั้นจึงลงทะเบียนในรีจิสทรีทางออนไลน์ คุณต้องแน่ใจว่าคุณอนุญาตให้ทำการทดสอบทั้งหมดก่อนและไม่ขัดจังหวะระหว่างนั้น แม้ว่าจะบรรลุค่า p ที่ต้องการแล้วก็ตาม

นอกจากมาตรการเหล่านี้แล้ว คุณยังสามารถเริ่มต้นด้วยชุดข้อมูลคุณภาพสูงเพื่อหลีกเลี่ยงโอกาสที่จะเกิดข้อผิดพลาด มาตรการด้านความปลอดภัยทั้งหมดนี้จะช่วยให้คุณหลีกเลี่ยงการขุดลอกข้อมูลในระดับที่ดีได้อย่างแน่นอน

อัตราการค้นพบเท็จคืออะไร?

นี่เป็นหนึ่งในแนวทางที่ทันสมัยที่สุดในการแก้ปัญหาเกี่ยวกับการแฮ็ก p วิธีนี้ช่วยให้คุณปรับค่า p สำหรับการทดสอบแต่ละครั้ง ไม่เหมือนกับวิธีอื่นๆ ตรงที่มันไม่ลดผลลัพธ์ที่เป็นเท็จ แต่กลับค้นพบมัน สิ่งนี้ทำให้มีความสำคัญมากกว่าวิธีการอื่นๆ เช่น การแก้ไข Bonferroni และแม่นยำยิ่งขึ้นในการค้นหาผลลัพธ์ที่สำคัญ

ค่า p ที่ปรับแล้วเหล่านี้เรียกอีกอย่างว่าค่า q มีแนวทาง FDR เวอร์ชันอื่นเช่นแนวทาง FDR ที่ปรับให้เหมาะสม