สมมติฐานของการถดถอยเชิงเส้น: 5 สมมติฐานพร้อมตัวอย่าง

เผยแพร่แล้ว: 2020-12-22

การถดถอยใช้เพื่อวัดและหาปริมาณความสัมพันธ์แบบเหตุและผล การวิเคราะห์การถดถอยเป็น เทคนิคทางสถิติที่ใช้เพื่อทำความเข้าใจขนาดและทิศทางของความสัมพันธ์เชิงสาเหตุที่เป็นไปได้ระหว่างรูปแบบที่สังเกตได้และตัวแปรที่สันนิษฐานว่าส่งผลกระทบต่อรูปแบบที่สังเกตได้

ตัวอย่างเช่น หากมีการลดราคาของผลิตภัณฑ์ 20% เช่น มอยส์เจอไรเซอร์ ผู้คนมักจะซื้อผลิตภัณฑ์นั้น และยอดขายก็มีแนวโน้มเพิ่มขึ้น

ที่นี่ รูปแบบที่สังเกตได้คือการเพิ่มขึ้นของยอดขาย (เรียกอีกอย่างว่าตัวแปรตาม) ตัวแปรที่สันนิษฐานว่ามีผลกระทบต่อยอดขายคือราคา (เรียกอีกอย่างว่าตัวแปรอิสระ)

สารบัญ

การถดถอยเชิงเส้นคืออะไร?

การถดถอยเชิงเส้นเป็นเทคนิคทางสถิติที่จำลองขนาดและทิศทางของผลกระทบต่อตัวแปรตามที่อธิบายไว้โดยตัวแปรอิสระ การถดถอยเชิงเส้นมักใช้ในการวิเคราะห์เชิงคาดการณ์

การถดถอยเชิงเส้นอธิบายลักษณะสำคัญของตัวแปรสองประการ ซึ่งมีดังนี้:

  • ชุดของตัวแปรอิสระอธิบายตัวแปรตามอย่างมีนัยสำคัญหรือไม่?
  • ตัวแปรใดที่สำคัญที่สุดในการอธิบายสิ่งที่ขึ้นอยู่กับที่มีอยู่? ส่งผลต่อตัวแปรตามอย่างไร? ผลกระทบมักจะถูกกำหนดโดยขนาดและเครื่องหมายของสัมประสิทธิ์เบตาในสมการ

ทีนี้ มาดูสมมติฐานของการถดถอยเชิงเส้น ซึ่งจำเป็นต้องเข้าใจก่อนที่เราจะรันตัวแบบการถดถอยเชิงเส้น

อ่านเพิ่มเติม: แบบจำลองการถดถอยเชิงเส้น & มันทำงานอย่างไร?

สมมติฐานของการถดถอยเชิงเส้น

ความสัมพันธ์เชิงเส้น

สมมติฐานที่สำคัญที่สุดประการหนึ่งคือมีการกล่าวถึงความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ หากคุณพยายามปรับความสัมพันธ์เชิงเส้นให้พอดีกับชุดข้อมูลที่ไม่ใช่เชิงเส้น อัลกอริธึมที่เสนอจะไม่จับแนวโน้มเป็นกราฟเชิงเส้น ส่งผลให้แบบจำลองไม่มีประสิทธิภาพ ย่อมส่งผลให้คำทำนายไม่แม่นยำ

คุณจะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?

วิธีง่ายๆ ในการพิจารณาว่าเป็นไปตามสมมติฐานหรือไม่คือการสร้างพล็อตแบบกระจาย x กับ y หากจุดข้อมูลอยู่บนเส้นตรงในกราฟ แสดงว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรตามและตัวแปรอิสระ และสมมติฐานยังคงมีอยู่

คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?

หากไม่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรตามและตัวแปรอิสระ ให้ใช้การแปลงแบบไม่เชิงเส้น เช่น ลอการิทึม เอ็กซ์โปเนนเชียล สแควร์รูท หรือส่วนกลับกับตัวแปรตาม ตัวแปรอิสระ หรือทั้งสองอย่าง

ไม่มีความสัมพันธ์อัตโนมัติหรือความเป็นอิสระ

ส่วนที่เหลือ (เงื่อนไขข้อผิดพลาด) เป็นอิสระจากกัน กล่าวอีกนัยหนึ่ง ไม่มีความสัมพันธ์ระหว่างเงื่อนไขข้อผิดพลาดที่ต่อเนื่องกันของข้อมูลอนุกรมเวลา การมีอยู่ของความสัมพันธ์ในเงื่อนไขข้อผิดพลาดจะลดความแม่นยำของแบบจำลองลงอย่างมาก หากเงื่อนไขข้อผิดพลาดมีความสัมพันธ์กัน ข้อผิดพลาดมาตรฐานโดยประมาณจะพยายามยุบข้อผิดพลาดมาตรฐานที่แท้จริง

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?

ทำการทดสอบสถิติ Durbin-Watson (DW) ค่าควรอยู่ระหว่าง 0-4 ถ้า DW=2 ไม่มีความสัมพันธ์อัตโนมัติ หาก DW อยู่ระหว่าง 0 ถึง 2 แสดงว่ามีความสัมพันธ์เชิงบวก หาก DW อยู่ระหว่าง 2 ถึง 4 แสดงว่ามีความสัมพันธ์เชิงลบ อีกวิธีหนึ่งคือการพล็อตกราฟเทียบกับค่าคงเหลือเทียบกับเวลา และดูรูปแบบค่าคงเหลือ

คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?

หากสมมติฐานถูกละเมิด ให้พิจารณาตัวเลือกต่อไปนี้:

  • สำหรับความสัมพันธ์เชิงบวก ให้พิจารณาเพิ่มความล่าช้าให้กับตัวแปรตามหรือตัวแปรอิสระหรือทั้งสองตัวแปร
  • สำหรับความสัมพันธ์เชิงลบ ให้ตรวจสอบว่าไม่มีตัวแปรใดที่มีความแตกต่างมากเกินไป
  • สำหรับความสัมพันธ์ตามฤดูกาล ให้ลองเพิ่มตัวแปรตามฤดูกาลสองสามตัวลงในแบบจำลอง

ไม่มีความหลากหลายทางชีวภาพ

ตัวแปรอิสระไม่ควรมีความสัมพันธ์กัน หากมีความเป็นเส้นหลายเส้นระหว่างตัวแปรอิสระ การคาดการณ์ผลลัพธ์ของแบบจำลองเป็นเรื่องยาก โดยพื้นฐานแล้ว เป็นการยากที่จะอธิบายความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ กล่าวอีกนัยหนึ่งคือไม่ชัดเจนว่าตัวแปรอิสระใดอธิบายตัวแปรตาม

ข้อผิดพลาดมาตรฐานมักจะขยายด้วยตัวแปรที่มีความสัมพันธ์กัน จึงเป็นการเพิ่มช่วงความเชื่อมั่นที่นำไปสู่การประมาณการที่ไม่แม่นยำ

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?

ใช้แผนภาพกระจายเพื่อแสดงภาพความสัมพันธ์ระหว่างตัวแปร อีกวิธีหนึ่งคือการหาค่า VIF (Variance Inflation Factor) VIF<=4 หมายถึงไม่มีการทำงานร่วมกันหลายแบบ ขณะที่ VIF>=10 หมายถึงการทำงานร่วมกันหลายแบบที่ร้ายแรง

คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?

ลดความสัมพันธ์ระหว่างตัวแปรโดยการแปลงหรือรวมตัวแปรที่สัมพันธ์กัน

ต้องอ่าน: ประเภทของแบบจำลองการถดถอยใน ML

รักร่วมเพศ

Homoscedasticity หมายถึงสิ่งตกค้างมีความแปรปรวนคงที่ที่ทุกระดับของ x การไม่มีปรากฏการณ์นี้เรียกว่า heteroscedasticity ความแตกต่างทั่วไปมักเกิดขึ้นต่อหน้าค่าผิดปกติและค่าสุดขั้ว

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?

สร้างพล็อตกระจายที่แสดงมูลค่าคงเหลือเทียบกับค่าติดตั้ง หากจุดข้อมูลถูกกระจายไปทั่วเท่าๆ กันโดยไม่มีรูปแบบที่โดดเด่น แสดงว่าเศษที่เหลือมีความแปรปรวนคงที่ (homoscedasticity) มิฉะนั้น หากเห็นรูปแบบรูปทรงกรวย หมายความว่าเศษที่เหลือจะไม่ถูกกระจายอย่างเท่าเทียมกันและแสดงถึงความแปรปรวนที่ไม่คงที่ (heteroscedasticity)

คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?

  • แปลงตัวแปรตาม
  • กำหนดตัวแปรตามใหม่
  • ใช้ถดถอยถ่วงน้ำหนัก

การแจกแจงเงื่อนไขข้อผิดพลาดปกติ

สมมติฐานสุดท้ายที่ต้องตรวจสอบการถดถอยเชิงเส้นคือการแจกแจงปกติของเงื่อนไขข้อผิดพลาด หากเงื่อนไขข้อผิดพลาดไม่เป็นไปตามการแจกแจงแบบปกติ ช่วงความเชื่อมั่นอาจกว้างหรือแคบเกินไป

จะทราบได้อย่างไรว่าเป็นไปตามสมมติฐานหรือไม่?

ตรวจสอบสมมติฐานโดยใช้พล็อต QQ (Quantile-Quantile) หากจุดข้อมูลบนกราฟเป็นเส้นทแยงมุม แสดงว่าเป็นไปตามสมมติฐาน

คุณยังสามารถตรวจสอบความปกติของเงื่อนไขข้อผิดพลาดได้โดยใช้การทดสอบทางสถิติ เช่น การทดสอบ Kolmogorov-Smironov หรือ Shapiro-Wilk

คุณควรทำอย่างไรหากสมมติฐานนี้ถูกละเมิด?

  • ตรวจสอบว่าค่าผิดปกติมีผลกระทบต่อการกระจายหรือไม่ ตรวจสอบให้แน่ใจว่าเป็นค่าจริงและไม่ใช่ข้อผิดพลาดในการป้อนข้อมูล
  • ใช้การแปลงแบบไม่เชิงเส้นในรูปแบบของล็อก สแควร์รูท หรือส่วนกลับกับตัวแปรตาม อิสระ หรือทั้งสองอย่าง

บทสรุป

ใช้ประโยชน์จากพลังที่แท้จริงของการถดถอยโดยใช้เทคนิคที่กล่าวถึงข้างต้นเพื่อให้แน่ใจว่าสมมติฐานจะไม่ถูกละเมิด เป็นไปได้อย่างยิ่งที่จะเข้าใจผลกระทบของตัวแปรอิสระที่มีต่อตัวแปรตาม หากตรงตามสมมติฐานทั้งหมดของการถดถอยเชิงเส้น

แนวคิดของการถดถอยเชิงเส้นเป็นองค์ประกอบที่ขาดไม่ได้ของวิทยาศาสตร์ข้อมูลและโปรแกรมการเรียนรู้ของเครื่อง

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแบบจำลองการถดถอยและแมชชีนเลิร์นนิงเพิ่มเติม ลองดู PG Diploma in Machine Learning & AI ของ IIIT-B และ upGrad ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษามากกว่า 30 รายการ & การมอบหมาย, สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับ บริษัท ชั้นนำ

เหตุใดจึงต้องมีการ homoscedasticity ในการถดถอยเชิงเส้น

Homoscedasticity อธิบายว่าข้อมูลมีความคล้ายคลึงหรือเบี่ยงเบนไปจากค่าเฉลี่ยเพียงใด นี่เป็นข้อสันนิษฐานที่สำคัญที่ต้องทำเนื่องจากการทดสอบทางสถิติเชิงพาราเมตริกมีความอ่อนไหวต่อความแตกต่าง ความแตกต่างไม่ก่อให้เกิดอคติในการประมาณค่าสัมประสิทธิ์ แต่จะลดความแม่นยำของค่าสัมประสิทธิ์ ด้วยความแม่นยำที่ต่ำกว่า การประมาณค่าสัมประสิทธิ์จึงมีแนวโน้มมากกว่าค่าประชากรที่ถูกต้อง เพื่อหลีกเลี่ยงปัญหานี้ homoscedasticity เป็นข้อสันนิษฐานที่สำคัญในการยืนยัน

multicollinearity สองประเภทในการถดถอยเชิงเส้นคืออะไร?

multicollinearity ข้อมูลและโครงสร้างเป็นสองประเภทพื้นฐานของ multicollinearity เมื่อเราสร้างเทอมแบบจำลองจากเงื่อนไขอื่น เราจะได้โครงสร้างหลายคอลลิเนียร์ กล่าวอีกนัยหนึ่ง แทนที่จะปรากฏในข้อมูลเอง มันเป็นผลมาจากแบบจำลองที่เราจัดเตรียมให้ แม้ว่า data multicollinearity จะไม่ใช่สิ่งประดิษฐ์ของโมเดลของเรา แต่ก็มีอยู่ในตัวข้อมูล multicollinearity ของข้อมูลเป็นเรื่องปกติมากขึ้นในการตรวจสอบเชิงสังเกต

ข้อเสียของการใช้ t-test สำหรับการทดสอบอิสระคืออะไร?

มีปัญหาเกี่ยวกับการวัดซ้ำแทนความแตกต่างระหว่างการออกแบบกลุ่มเมื่อใช้การทดสอบ t ตัวอย่างที่จับคู่กัน ซึ่งนำไปสู่ผลกระทบที่ตามมา เนื่องจากข้อผิดพลาดประเภทที่ 1 การทดสอบ t จึงไม่สามารถนำมาใช้ในการเปรียบเทียบหลายรายการได้ เป็นการยากที่จะปฏิเสธสมมติฐานว่างเมื่อทำการทดสอบ t คู่กับชุดตัวอย่าง การรับอาสาสมัครสำหรับข้อมูลตัวอย่างเป็นกระบวนการที่ใช้เวลานานและมีค่าใช้จ่ายสูงในกระบวนการวิจัย