สมมติฐานของการถดถอยเชิงเส้น: 5 สมมติฐานพร้อมตัวอย่าง
เผยแพร่แล้ว: 2020-12-22การถดถอยใช้เพื่อวัดและหาปริมาณความสัมพันธ์แบบเหตุและผล การวิเคราะห์การถดถอยเป็น เทคนิคทางสถิติที่ใช้เพื่อทำความเข้าใจขนาดและทิศทางของความสัมพันธ์เชิงสาเหตุที่เป็นไปได้ระหว่างรูปแบบที่สังเกตได้และตัวแปรที่สันนิษฐานว่าส่งผลกระทบต่อรูปแบบที่สังเกตได้
ตัวอย่างเช่น หากมีการลดราคาของผลิตภัณฑ์ 20% เช่น มอยส์เจอไรเซอร์ ผู้คนมักจะซื้อผลิตภัณฑ์นั้น และยอดขายก็มีแนวโน้มเพิ่มขึ้น
ที่นี่ รูปแบบที่สังเกตได้คือการเพิ่มขึ้นของยอดขาย (เรียกอีกอย่างว่าตัวแปรตาม) ตัวแปรที่สันนิษฐานว่ามีผลกระทบต่อยอดขายคือราคา (เรียกอีกอย่างว่าตัวแปรอิสระ)
สารบัญ
การถดถอยเชิงเส้นคืออะไร?
การถดถอยเชิงเส้นเป็นเทคนิคทางสถิติที่จำลองขนาดและทิศทางของผลกระทบต่อตัวแปรตามที่อธิบายไว้โดยตัวแปรอิสระ การถดถอยเชิงเส้นมักใช้ในการวิเคราะห์เชิงคาดการณ์
การถดถอยเชิงเส้นอธิบายลักษณะสำคัญของตัวแปรสองประการ ซึ่งมีดังนี้:
- ชุดของตัวแปรอิสระอธิบายตัวแปรตามอย่างมีนัยสำคัญหรือไม่?
- ตัวแปรใดที่สำคัญที่สุดในการอธิบายสิ่งที่ขึ้นอยู่กับที่มีอยู่? ส่งผลต่อตัวแปรตามอย่างไร? ผลกระทบมักจะถูกกำหนดโดยขนาดและเครื่องหมายของสัมประสิทธิ์เบตาในสมการ
ทีนี้ มาดูสมมติฐานของการถดถอยเชิงเส้น ซึ่งจำเป็นต้องเข้าใจก่อนที่เราจะรันตัวแบบการถดถอยเชิงเส้น

อ่านเพิ่มเติม: แบบจำลองการถดถอยเชิงเส้น & มันทำงานอย่างไร?
สมมติฐานของการถดถอยเชิงเส้น
ความสัมพันธ์เชิงเส้น
สมมติฐานที่สำคัญที่สุดประการหนึ่งคือมีการกล่าวถึงความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ หากคุณพยายามปรับความสัมพันธ์เชิงเส้นให้พอดีกับชุดข้อมูลที่ไม่ใช่เชิงเส้น อัลกอริธึมที่เสนอจะไม่จับแนวโน้มเป็นกราฟเชิงเส้น ส่งผลให้แบบจำลองไม่มีประสิทธิภาพ ย่อมส่งผลให้คำทำนายไม่แม่นยำ
คุณจะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?
วิธีง่ายๆ ในการพิจารณาว่าเป็นไปตามสมมติฐานหรือไม่คือการสร้างพล็อตแบบกระจาย x กับ y หากจุดข้อมูลอยู่บนเส้นตรงในกราฟ แสดงว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรตามและตัวแปรอิสระ และสมมติฐานยังคงมีอยู่
คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?
หากไม่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรตามและตัวแปรอิสระ ให้ใช้การแปลงแบบไม่เชิงเส้น เช่น ลอการิทึม เอ็กซ์โปเนนเชียล สแควร์รูท หรือส่วนกลับกับตัวแปรตาม ตัวแปรอิสระ หรือทั้งสองอย่าง
ไม่มีความสัมพันธ์อัตโนมัติหรือความเป็นอิสระ
ส่วนที่เหลือ (เงื่อนไขข้อผิดพลาด) เป็นอิสระจากกัน กล่าวอีกนัยหนึ่ง ไม่มีความสัมพันธ์ระหว่างเงื่อนไขข้อผิดพลาดที่ต่อเนื่องกันของข้อมูลอนุกรมเวลา การมีอยู่ของความสัมพันธ์ในเงื่อนไขข้อผิดพลาดจะลดความแม่นยำของแบบจำลองลงอย่างมาก หากเงื่อนไขข้อผิดพลาดมีความสัมพันธ์กัน ข้อผิดพลาดมาตรฐานโดยประมาณจะพยายามยุบข้อผิดพลาดมาตรฐานที่แท้จริง
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?
ทำการทดสอบสถิติ Durbin-Watson (DW) ค่าควรอยู่ระหว่าง 0-4 ถ้า DW=2 ไม่มีความสัมพันธ์อัตโนมัติ หาก DW อยู่ระหว่าง 0 ถึง 2 แสดงว่ามีความสัมพันธ์เชิงบวก หาก DW อยู่ระหว่าง 2 ถึง 4 แสดงว่ามีความสัมพันธ์เชิงลบ อีกวิธีหนึ่งคือการพล็อตกราฟเทียบกับค่าคงเหลือเทียบกับเวลา และดูรูปแบบค่าคงเหลือ
คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?
หากสมมติฐานถูกละเมิด ให้พิจารณาตัวเลือกต่อไปนี้:
- สำหรับความสัมพันธ์เชิงบวก ให้พิจารณาเพิ่มความล่าช้าให้กับตัวแปรตามหรือตัวแปรอิสระหรือทั้งสองตัวแปร
- สำหรับความสัมพันธ์เชิงลบ ให้ตรวจสอบว่าไม่มีตัวแปรใดที่มีความแตกต่างมากเกินไป
- สำหรับความสัมพันธ์ตามฤดูกาล ให้ลองเพิ่มตัวแปรตามฤดูกาลสองสามตัวลงในแบบจำลอง
ไม่มีความหลากหลายทางชีวภาพ
ตัวแปรอิสระไม่ควรมีความสัมพันธ์กัน หากมีความเป็นเส้นหลายเส้นระหว่างตัวแปรอิสระ การคาดการณ์ผลลัพธ์ของแบบจำลองเป็นเรื่องยาก โดยพื้นฐานแล้ว เป็นการยากที่จะอธิบายความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ กล่าวอีกนัยหนึ่งคือไม่ชัดเจนว่าตัวแปรอิสระใดอธิบายตัวแปรตาม

ข้อผิดพลาดมาตรฐานมักจะขยายด้วยตัวแปรที่มีความสัมพันธ์กัน จึงเป็นการเพิ่มช่วงความเชื่อมั่นที่นำไปสู่การประมาณการที่ไม่แม่นยำ
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?
ใช้แผนภาพกระจายเพื่อแสดงภาพความสัมพันธ์ระหว่างตัวแปร อีกวิธีหนึ่งคือการหาค่า VIF (Variance Inflation Factor) VIF<=4 หมายถึงไม่มีการทำงานร่วมกันหลายแบบ ขณะที่ VIF>=10 หมายถึงการทำงานร่วมกันหลายแบบที่ร้ายแรง
คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?
ลดความสัมพันธ์ระหว่างตัวแปรโดยการแปลงหรือรวมตัวแปรที่สัมพันธ์กัน
ต้องอ่าน: ประเภทของแบบจำลองการถดถอยใน ML
รักร่วมเพศ
Homoscedasticity หมายถึงสิ่งตกค้างมีความแปรปรวนคงที่ที่ทุกระดับของ x การไม่มีปรากฏการณ์นี้เรียกว่า heteroscedasticity ความแตกต่างทั่วไปมักเกิดขึ้นต่อหน้าค่าผิดปกติและค่าสุดขั้ว
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?
สร้างพล็อตกระจายที่แสดงมูลค่าคงเหลือเทียบกับค่าติดตั้ง หากจุดข้อมูลถูกกระจายไปทั่วเท่าๆ กันโดยไม่มีรูปแบบที่โดดเด่น แสดงว่าเศษที่เหลือมีความแปรปรวนคงที่ (homoscedasticity) มิฉะนั้น หากเห็นรูปแบบรูปทรงกรวย หมายความว่าเศษที่เหลือจะไม่ถูกกระจายอย่างเท่าเทียมกันและแสดงถึงความแปรปรวนที่ไม่คงที่ (heteroscedasticity)
คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?
- แปลงตัวแปรตาม
- กำหนดตัวแปรตามใหม่
- ใช้ถดถอยถ่วงน้ำหนัก
การแจกแจงเงื่อนไขข้อผิดพลาดปกติ
สมมติฐานสุดท้ายที่ต้องตรวจสอบการถดถอยเชิงเส้นคือการแจกแจงปกติของเงื่อนไขข้อผิดพลาด หากเงื่อนไขข้อผิดพลาดไม่เป็นไปตามการแจกแจงแบบปกติ ช่วงความเชื่อมั่นอาจกว้างหรือแคบเกินไป
จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?
ตรวจสอบสมมติฐานโดยใช้พล็อต QQ (Quantile-Quantile) หากจุดข้อมูลบนกราฟเป็นเส้นทแยงมุม แสดงว่าเป็นไปตามสมมติฐาน

คุณยังสามารถตรวจสอบความปกติของเงื่อนไขข้อผิดพลาดได้โดยใช้การทดสอบทางสถิติ เช่น การทดสอบ Kolmogorov-Smironov หรือ Shapiro-Wilk
คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?
- ตรวจสอบว่าค่าผิดปกติมีผลกระทบต่อการกระจายหรือไม่ ตรวจสอบให้แน่ใจว่าเป็นค่าจริงและไม่ใช่ข้อผิดพลาดในการป้อนข้อมูล
- ใช้การแปลงแบบไม่เชิงเส้นในรูปแบบของล็อก สแควร์รูท หรือส่วนกลับกับตัวแปรตาม อิสระ หรือทั้งสองอย่าง
บทสรุป
ใช้ประโยชน์จากพลังที่แท้จริงของการถดถอยโดยใช้เทคนิคที่กล่าวถึงข้างต้นเพื่อให้แน่ใจว่าสมมติฐานจะไม่ถูกละเมิด เป็นไปได้อย่างยิ่งที่จะเข้าใจผลกระทบของตัวแปรอิสระที่มีต่อตัวแปรตาม หากตรงตามสมมติฐานทั้งหมดของการถดถอยเชิงเส้น
แนวคิดของการถดถอยเชิงเส้นเป็นองค์ประกอบที่ขาดไม่ได้ของวิทยาศาสตร์ข้อมูลและโปรแกรมการเรียนรู้ของเครื่อง
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแบบจำลองการถดถอยและแมชชีนเลิร์นนิงเพิ่มเติม ลองดู PG Diploma in Machine Learning & AI ของ IIIT-B และ upGrad ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษามากกว่า 30 รายการ & การมอบหมาย, สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับ บริษัท ชั้นนำ
เหตุใดจึงต้องมีการ homoscedasticity ในการถดถอยเชิงเส้น
Homoscedasticity อธิบายว่าข้อมูลมีความคล้ายคลึงหรือเบี่ยงเบนไปจากค่าเฉลี่ยเพียงใด นี่เป็นข้อสันนิษฐานที่สำคัญที่ต้องทำเนื่องจากการทดสอบทางสถิติเชิงพาราเมตริกมีความอ่อนไหวต่อความแตกต่าง ความแตกต่างไม่ก่อให้เกิดอคติในการประมาณค่าสัมประสิทธิ์ แต่จะลดความแม่นยำของค่าสัมประสิทธิ์ ด้วยความแม่นยำที่ต่ำกว่า การประมาณค่าสัมประสิทธิ์จึงมีแนวโน้มมากกว่าค่าประชากรที่ถูกต้อง เพื่อหลีกเลี่ยงปัญหานี้ homoscedasticity เป็นข้อสันนิษฐานที่สำคัญในการยืนยัน
multicollinearity สองประเภทในการถดถอยเชิงเส้นคืออะไร?
multicollinearity ข้อมูลและโครงสร้างเป็นสองประเภทพื้นฐานของ multicollinearity เมื่อเราสร้างเทอมแบบจำลองจากเงื่อนไขอื่น เราจะได้โครงสร้างหลายคอลลิเนียร์ กล่าวอีกนัยหนึ่ง แทนที่จะปรากฏในข้อมูลเอง มันเป็นผลมาจากแบบจำลองที่เราจัดเตรียมให้ แม้ว่า data multicollinearity จะไม่ใช่สิ่งประดิษฐ์ของโมเดลของเรา แต่ก็มีอยู่ในตัวข้อมูล multicollinearity ของข้อมูลเป็นเรื่องปกติมากขึ้นในการตรวจสอบเชิงสังเกต
ข้อเสียของการใช้ t-test สำหรับการทดสอบอิสระคืออะไร?
มีปัญหาเกี่ยวกับการวัดซ้ำแทนความแตกต่างระหว่างการออกแบบกลุ่มเมื่อใช้การทดสอบ t ตัวอย่างที่จับคู่กัน ซึ่งนำไปสู่ผลกระทบที่ตามมา เนื่องจากข้อผิดพลาดประเภทที่ 1 การทดสอบ t จึงไม่สามารถนำมาใช้ในการเปรียบเทียบหลายรายการได้ เป็นการยากที่จะปฏิเสธสมมติฐานว่างเมื่อทำการทดสอบ t คู่กับชุดตัวอย่าง การรับอาสาสมัครสำหรับข้อมูลตัวอย่างเป็นกระบวนการที่ใช้เวลานานและมีค่าใช้จ่ายสูงในกระบวนการวิจัย