Multicollinearity ในการวิเคราะห์การถดถอย: ทุกสิ่งที่คุณต้องรู้

เผยแพร่แล้ว: 2020-12-23

สารบัญ

บทนำ

การถดถอยพยายามที่จะกำหนดลักษณะและความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรตามหนึ่งกับชุดของตัวแปรอิสระอื่นๆ ช่วยประเมินความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรต่างๆ และสร้างแบบจำลองความสัมพันธ์ในอนาคตระหว่างตัวแปรเหล่านี้ “Multicollinearity” ในการถดถอยหมายถึงตัวทำนายที่สัมพันธ์กับตัวทำนายอื่น ๆ

Multicollinearity คืออะไร?

เมื่อใดก็ตามที่ความสัมพันธ์ระหว่างตัวแปรทำนายสองตัวหรือมากกว่านั้นสูง Multicollinearity ในการถดถอยจะเกิดขึ้น พูดง่ายๆ ก็คือ ตัวแปรทำนาย หรือที่เรียกว่าตัวทำนายหลายคอลลิเนียร์ สามารถใช้ทำนายตัวแปรอื่นได้ สิ่งนี้นำไปสู่การสร้างข้อมูลซ้ำซ้อน ซึ่งบิดเบือนผลลัพธ์ในรูปแบบการถดถอย

ตัวอย่างสำหรับการคาดการณ์แบบหลายคอลลิเนียร์ ได้แก่ ราคาขายและอายุของรถยนต์ น้ำหนัก ส่วนสูงของบุคคล หรือรายได้ต่อปีและปีการศึกษา

การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์เป็นวิธีที่ง่ายที่สุดในการตรวจหา multicollinearity สำหรับค่าตัวทำนายทุกคู่ ถ้า r, สัมประสิทธิ์สหสัมพันธ์นั้นเท่ากับ +1 หรือ -1 พอดี, จะถูกเรียกว่าพหุเส้นตรงที่สมบูรณ์แบบ หากสัมประสิทธิ์สหสัมพันธ์ตรงหรือใกล้เคียงกับ +1 หรือ -1 ทุกประการ ตัวแปรตัวใดตัวหนึ่งจะต้องละทิ้งจากแบบจำลองเฉพาะในกรณีที่เป็นไปได้เท่านั้น

ข้อมูลการทดลองมีน้อย แต่เป็นเรื่องปกติมากที่ multicollinearity จะดึงหัวที่น่าเกลียดเมื่อพูดถึงการศึกษาเชิงสังเกต มันสามารถนำไปสู่การประมาณการถดถอยที่ไม่น่าเชื่อถือและไม่เสถียรเมื่อมีเงื่อนไขอยู่ ด้วยความช่วยเหลือในการวิเคราะห์ผลลัพธ์ ปัญหาอื่นๆ อีกสองสามข้ออาจถูกรบกวนได้ เช่น:

  • สถิติ t มักจะค่อนข้างเล็ก และช่วงความเชื่อมั่นของสัมประสิทธิ์จะกว้าง หมายความว่าเป็นการยากที่จะปฏิเสธสมมติฐานว่าง
  • อาจมีการเปลี่ยนแปลงขนาดและ/หรือเครื่องหมายในสัมประสิทธิ์การถดถอยบางส่วน เมื่อมีการส่งผ่านจากกลุ่มตัวอย่างไปยังกลุ่มตัวอย่าง
  • ข้อผิดพลาดมาตรฐานอาจมีขนาดใหญ่ และการประมาณค่าสัมประสิทธิ์การถดถอยบางส่วนอาจไม่แม่นยำ
  • เป็นการยากที่จะวัดผลกระทบต่อตัวแปรตามโดยตัวแปรอิสระเนื่องจาก multicollinearity

อ่าน: ประเภทของแบบจำลองการถดถอยในการเรียนรู้ของเครื่อง

ทำไม Multicollinearity ถึงเป็นปัญหา?

การเปลี่ยนแปลงในตัวแปรเดียวอาจทำให้เกิดการเปลี่ยนแปลงในตัวแปรที่เหลือ ซึ่งเกิดขึ้นเมื่อตัวแปรอิสระมีความสัมพันธ์สูง ดังนั้น โมเดลนี้จึงนำไปสู่ผลลัพธ์ที่ผันผวนอย่างมาก เนื่องจากผลลัพธ์ของแบบจำลองจะไม่เสถียรและแตกต่างกันอย่างมาก แม้ว่าจะมีการเปลี่ยนแปลงเล็กน้อยในข้อมูลก็ตาม นี่จะทำให้เกิดปัญหาดังต่อไปนี้:

  • การประมาณค่าสัมประสิทธิ์จะไม่เสถียรและยากต่อการตีความแบบจำลอง นั่นคือ คุณไม่สามารถคาดการณ์ระดับของความแตกต่างในผลลัพธ์ได้ ถ้าแม้แต่ปัจจัยหนึ่งในการทำนายการเปลี่ยนแปลงของคุณ 1 หน่วย
  • คงจะเป็นเรื่องยากที่จะเลือกรายการตัวแปรที่สำคัญสำหรับแบบจำลอง หากมันให้ผลลัพธ์ที่แตกต่างกันทุกครั้ง
  • การใส่มากเกินไปอาจเกิดจากลักษณะที่ไม่เสถียรของแบบจำลอง คุณจะสังเกตเห็นว่าความแม่นยำลดลงอย่างมากหากคุณใช้แบบจำลองเดียวกันกับตัวอย่างข้อมูลอื่นๆ เมื่อเทียบกับความแม่นยำที่คุณได้รับจากชุดข้อมูลการฝึกของคุณ

เมื่อพิจารณาจากสถานการณ์แล้ว โมเดลของคุณอาจไม่ลำบากหากเกิดปัญหาความสอดคล้องกันในระดับปานกลางเท่านั้น อย่างไรก็ตาม ขอแนะนำให้แก้ปัญหาเสมอหากมีปัญหาร้ายแรงในการทำงานร่วมกัน

สาเหตุของ Multicollinearity คืออะไร?

มีสองประเภท:

  1. Multicollinearity เชิงโครงสร้างในการถดถอย: ซึ่งมักเกิดจากผู้วิจัยหรือคุณขณะสร้างตัวแปรทำนายใหม่
  2. multicollinearity ตามข้อมูลในการถดถอย: โดยทั่วไปเกิดจากการทดลองที่ออกแบบมาไม่ดี วิธีการรวบรวมข้อมูลที่ไม่สามารถจัดการได้ หรือข้อมูลเชิงสังเกตล้วนๆ ในบางกรณี ตัวแปรอาจมีความสัมพันธ์สูงเนื่องจากการเก็บรวบรวมข้อมูลจากการศึกษาเชิงสังเกต 100% และไม่มีข้อผิดพลาดจากฝ่ายผู้วิจัย ด้วยเหตุนี้ จึงแนะนำให้ทำการทดลองทุกครั้งที่ทำได้โดยกำหนดระดับของตัวแปรทำนายล่วงหน้า

อ่านเพิ่มเติม: แนวคิดและหัวข้อโครงการการถดถอยเชิงเส้น

สาเหตุอื่นๆ อาจรวมถึง

  1. ขาดข้อมูล ในบางกรณี การรวบรวมข้อมูลจำนวนมากสามารถช่วยแก้ไขปัญหาได้
  2. ตัวแปรที่ใช้เป็นตัวจำลองอาจถูกใช้อย่างไม่ถูกต้อง ตัวอย่างเช่น ผู้วิจัยอาจล้มเหลวในการเพิ่มตัวแปรจำลองสำหรับทุกประเภทหรือยกเว้นหนึ่งประเภท
  3. พิจารณาตัวแปรในการถดถอยซึ่งเป็นการรวมกันของตัวแปรอื่นๆ ในการถดถอย เช่น พิจารณา "รายรับจากการลงทุนทั้งหมด" เมื่อเป็นรายได้จากการออมดอกเบี้ย + รายได้จากพันธบัตรและหุ้น
  4. รวมสองตัวแปรที่เหมือนกันเกือบหรือเหมือนกันทั้งหมด ตัวอย่างเช่น รายได้พันธบัตร/ออมทรัพย์และรายได้จากการลงทุน น้ำหนักเป็นกิโลกรัม และน้ำหนักเป็นปอนด์

เพื่อตรวจสอบว่า multicollinearity เกิดขึ้นหรือไม่

คุณสามารถพลอตเมทริกซ์ความสัมพันธ์ของตัวแปรอิสระทั้งหมดได้ หรือคุณสามารถใช้ VIF นั่นคือ Variance Inflation Factor สำหรับตัวแปรอิสระแต่ละตัว มันวัด multicollinearity ในชุดตัวแปรการถดถอยพหุคูณ ค่าของ VIF เป็นสัดส่วนกับความสัมพันธ์ระหว่างตัวแปรนี้กับส่วนที่เหลือ ซึ่งหมายความว่า ยิ่งค่า VIF สูง ความสัมพันธ์ก็จะยิ่งสูงขึ้น

เราจะแก้ไขปัญหา Multicollinearity ได้อย่างไร?

  1. การเลือกตัวแปร: วิธีที่ง่ายที่สุดคือการลบตัวแปรบางตัวที่มีความสัมพันธ์กันสูง และปล่อยให้ตัวแปรที่สำคัญที่สุดในชุดเท่านั้น
  2. การแปลงตัวแปร: วิธีที่สองคือการแปลงตัวแปร ซึ่งจะลดความสัมพันธ์และยังคงรักษาคุณลักษณะไว้ได้
  3. การวิเคราะห์องค์ประกอบหลัก: การวิเคราะห์องค์ประกอบหลักมักใช้เพื่อลดขนาดข้อมูลโดยแยกข้อมูลออกเป็นปัจจัยอิสระจำนวนหนึ่ง มีการใช้งานมากมาย เช่น การคำนวณแบบจำลองสามารถลดความซับซ้อนได้โดยการลดปัจจัยการทำนายในจำนวน

การอ่านที่เกี่ยวข้อง: การถดถอยเชิงเส้นในการเรียนรู้ของเครื่อง

บทสรุป

ก่อนสร้างแบบจำลองการถดถอย คุณควรตรวจสอบปัญหา ในการดูตัวแปรอิสระแต่ละตัวแปรอย่างง่ายดาย ขอแนะนำให้ใช้ VIF เพื่อดูว่าตัวแปรเหล่านี้มีความสัมพันธ์กับตัวแปรที่เหลือหรือไม่ เมทริกซ์สหสัมพันธ์สามารถช่วยเลือกปัจจัยสำคัญเมื่อไม่แน่ใจว่าคุณควรเลือกตัวแปรใด นอกจากนี้ยังช่วยในการทำความเข้าใจว่าเหตุใดตัวแปรบางตัวจึงมีค่า VIF สูง

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

คำว่า ordinal regression ในแมชชีนเลิร์นนิงหมายถึงอะไร

การถดถอยลำดับเป็นประเภทของการวิเคราะห์การถดถอยที่เป็นของตระกูลการวิเคราะห์การถดถอย การถดถอยเชิงลำดับจะวิเคราะห์ข้อมูลและอธิบายความสัมพันธ์ระหว่างตัวแปรตามหนึ่งตัวแปรกับตัวแปรอิสระสองตัวหรือมากกว่าในฐานะการศึกษาเชิงพยากรณ์ การถดถอยลำดับใช้เพื่อทำนายตัวแปรตามเมื่อมี 'เรียงลำดับ' หมวดหมู่และปัจจัยอิสระจำนวนมาก กล่าวอีกนัยหนึ่งคืออนุญาตให้ตัวแปรตามที่มีระดับคำสั่งต่างกันโต้ตอบกับตัวแปรอิสระอย่างน้อยหนึ่งตัวได้ง่ายขึ้น

การปรากฏตัวของ multicollinearity ส่งผลกระทบต่อแผนผังการตัดสินใจหรือไม่?

หากคุณลักษณะสองประการมีความเกี่ยวข้องกันอย่างมากในแบบจำลองการเรียนรู้ของเครื่องโดยเฉพาะ โครงสร้างการตัดสินใจจะเลือกเพียงคุณลักษณะเดียวในขณะที่แยกส่วน หากข้อมูลเบ้หรือไม่สมดุล ต้นไม้ต้นเดียวจะนำไปสู่แนวทางที่โลภ แต่วิธีการเรียนรู้แบบรวมกลุ่ม เช่น ป่าสุ่มและต้นไม้ที่ส่งเสริมความลาดชันทำให้การทำนายไม่สามารถหลีกเลี่ยงความหลากหลายในแนวร่วมได้ ด้วยเหตุนี้ ป่าสุ่มและต้นไม้แห่งการตัดสินใจจึงไม่ได้รับผลกระทบจากความหลากหลายทางชีวภาพ

การถดถอยโลจิสติกแตกต่างจากการถดถอยเชิงเส้นอย่างไร

ในบางลักษณะ การถดถอยเชิงเส้นแตกต่างจากการถดถอยโลจิสติก การถดถอยเชิงตรรกะทำให้เกิดข้อสังเกตและการค้นพบที่ไม่ต่อเนื่อง แต่การถดถอยเชิงเส้นจะสร้างผลลัพธ์ที่ต่อเนื่องและต่อเนื่อง ในการถดถอยเชิงเส้น จะคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ย แต่ในการถดถอยโลจิสติก จะคำนวณการประมาณความน่าจะเป็นสูงสุด สุดท้าย เป้าหมายของการถดถอยเชิงเส้นคือการระบุเส้นที่ดีที่สุดเพื่อให้ตรงกับข้อมูล แต่การถดถอยโลจิสติกยังคงอยู่ข้างหน้าโดยการปรับข้อมูลให้เข้ากับเส้นโค้งซิกมอยด์