รู้ว่าเหตุใดแบบจำลองเชิงเส้นตรงทั่วไปจึงเป็นแบบจำลองการสังเคราะห์ที่น่าทึ่ง!

เผยแพร่แล้ว: 2020-11-17

สารบัญ

ทำความเข้าใจพื้นฐาน

GLM มีชื่อเสียงมากในหมู่บุคคลที่จัดการกับแบบจำลองการถดถอยต่างๆ ตั้งแต่แบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกไปจนถึงแบบจำลองสำหรับการวิเคราะห์การอยู่รอด คำว่า โมเดลเชิงเส้นทั่วไป (GLIM หรือ GLM ) ได้รับการประกาศเกียรติคุณและทำความคุ้นเคยโดย McCullagh (1982) และ Nelder (ฉบับที่ 2 1989) GLM ในรูปแบบที่ง่ายที่สุดตามที่อธิบายไว้ใน Rutherford 2001 Data = Model + Error มีกรอบการทำงานที่เป็นประโยชน์ซึ่งเป็นพื้นฐานของการทดสอบทางสถิติต่างๆ

ทบทวนคลาสของโมเดล

  • แบบจำลองการถดถอยเชิงเส้นคลาสสิก (CLR) หรือที่เรียกว่าแบบจำลองการถดถอยเชิงเส้น
  • การวิเคราะห์แบบจำลองความแปรปรวน (ANOVA)
  • โมเดลที่ทำนายโอกาสชนะ เช่น ความน่าจะเป็นของเครื่องจักรล้มเหลว
  • โมเดลที่ใช้อธิบายและทำนายจำนวนเหตุการณ์
  • แบบจำลองสำหรับการประมาณอายุขัยของสิ่งมีชีวิตและไม่มีชีวิต เช่น ผู้แปรรูปหรืออายุทางชีวภาพของพืช เป็นต้น

Generalized Linear Model ตาม ชื่อของมัน เปรียบเสมือนหลังคาสำหรับโมเดลทั้งหมดที่กล่าวมาข้างต้น พร้อมการคำนวณและการประมาณที่ปรับปรุงดีขึ้น

โครงสร้างของตัวแบบเชิงเส้นทั่วไป

แบบ จำลองเชิงเส้นทั่วไป (หรือ GLM1) ประกอบด้วยสามองค์ประกอบหลัก:

  1. ส่วนประกอบสุ่ม: ส่วนประกอบสุ่มที่เรียกว่าแบบจำลองสัญญาณรบกวนหรือแบบจำลองข้อผิดพลาดคือการแจกแจงความน่าจะเป็นของตัวแปรตอบสนอง (Y)
  2. องค์ประกอบที่เป็นระบบ : ตัวทำนายเชิงเส้นเป็นฟังก์ชันเชิงเส้นของตัวถดถอย ดังที่กล่าวไว้ด้านล่าง:

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

  1. ฟังก์ชันลิงก์ (แสดงด้วย η หรือ g(μ) ): ตามที่ชื่อบอกถึงความเชื่อมโยงระหว่างส่วนประกอบที่เป็นระบบและแบบสุ่ม

ตัวอย่าง : μi = E(Yi) ไปยังตัวทำนายเชิงเส้น g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

Generalized Linear Model ใช้กับข้อมูลโดยกระบวนการของความเป็นไปได้สูงสุด สิ่งนี้ให้ค่าประมาณของสัมประสิทธิ์การถดถอยและข้อผิดพลาดมาตรฐานเชิงซีมโทติกโดยประมาณของสัมประสิทธิ์

GLM พื้นฐาน สำหรับข้อมูลการนับคือโมเดลปัวซองที่มีลิงก์บันทึก อย่างไรก็ตาม เมื่อตัวแปรตอบสนองเป็นการนับ ความแปรปรวนตามเงื่อนไขจะเพิ่มขึ้นเร็วกว่าค่าเฉลี่ย ทำให้เกิดเงื่อนไขที่เรียกว่าการกระจายเกินและทำให้การใช้การแจกแจงปัวซองเป็นโมฆะ GLM เสมือน-ปัวซอง เพิ่มพารามิเตอร์การกระจายเพื่อจัดการข้อมูลการนับที่กระจายมากเกินไป

โดยทั่วไป การประมาณค่าความน่าจะเป็นเสมือนเป็นวิธีหนึ่งที่ช่วยให้เกิดการกระจายเกิน ซึ่งเป็นความแปรปรวนที่มีนัยสำคัญในข้อมูลมากกว่าที่คาดไว้จากแบบจำลองทางสถิติที่ใช้

โมเดลที่คล้ายกันนี้ใช้การแจกแจงทวินามลบ ซึ่งไม่ใช่แฟมิลีเอ็กซ์โปเนนเชียล ทวินามเชิงลบใน แบบจำลองเชิงเส้นทั่วไป ไม่สามารถกำหนดโดยความเป็นไปได้สูงสุด แบบจำลองการถดถอยปัวซองแบบเติมลมเป็นศูนย์อาจเหมาะที่สุดเมื่อมีศูนย์ในข้อมูลมากกว่าที่สอดคล้องกับการแจกแจงปัวซอง

อ่าน: อธิบายแบบจำลองการเรียนรู้ของเครื่อง

ข้อดีของตัวแบบเชิงเส้นตรงทั่วไปเหนือการถดถอยสามัญน้อยที่สุด (OLS) แบบดั้งเดิม

มีข้อดีหลายประการของตัวแบบเชิงเส้นตรงทั่วไปเหนือการถดถอย OLS ซึ่งสามารถสรุปได้ดังนี้:

  • ไม่เหมือนกับการถดถอยของ OLS การตอบสนอง Y ไม่จำเป็นต้องถูกแปลงทุกครั้งเพื่อให้มีการแจกแจงแบบปกติ
  • การสร้างแบบจำลองมีความยืดหยุ่นมากขึ้น เนื่องจากการเลือกลิงก์แตกต่างจากการเลือกส่วนประกอบแบบสุ่ม
  • ไม่จำเป็นต้องใช้ความแปรปรวนคงที่หากลิงก์ให้เอฟเฟกต์เพิ่มเติม
  • เรามีคุณสมบัติที่เหมาะสมที่สุดของตัวประมาณ เนื่องจากแบบจำลองต่างๆ ถูกแนบผ่านการประมาณค่าความน่าจะเป็นสูงสุด
  • เครื่องมือการอนุมานและการตรวจสอบแบบจำลองทั้งหมดสำหรับแบบจำลองการถดถอยของบันทึกเชิงเส้นและลอจิสติกส์ก็มีผลกับ GLM อื่นๆ ด้วย
  • โดยปกติจะมีเพียงกระบวนการเดียว (ขั้นตอนหรือฟังก์ชัน) ในแพ็คเกจซอฟต์แวร์เพื่อบันทึกโมเดลทั้งหมดที่ระบุไว้ในตารางด้านบน ใช้ตัวอย่างเช่น glm() (ภาษา R) หรือ PROC GENMOD (SAS)

ข้อเสียของตัวแบบเชิงเส้นตรงทั่วไป

นอกเหนือจากข้อดีที่กล่าวข้างต้นแล้ว ยังมีข้อเสียที่สำคัญสองประการที่ควรรู้:

  • ข้อจำกัดบางอย่าง เช่น ฟังก์ชันเชิงเส้นสามารถมีได้เพียงตัวทำนายเชิงเส้นในองค์ประกอบที่เป็นระบบ
  • การตอบสนองไม่สามารถพึ่งพาซึ่งกันและกัน

ต้องอ่าน: อธิบายแนวคิดโครงการการเรียนรู้ของเครื่อง

บทสรุป

หากเราสรุปข้อมูลข้างต้นทั้งหมด เราพบว่า GLM สะดวกและซับซ้อนน้อยกว่า ด้วย GLM ตัวแปรการตอบสนองสามารถมีรูปแบบการแจกแจงแบบเอ็กซ์โพเนนเชียลรูปแบบใดก็ได้ นอกเหนือจากนี้ มันสามารถจัดการกับตัวทำนายหมวดหมู่ ตัวแบบเชิงเส้นทั่วไปนั้นมีความเกี่ยวข้องกัน ง่ายต่อการตีความ และช่วยให้เข้าใจอย่างชัดเจนว่าตัวทำนายแต่ละตัวมีอิทธิพลต่อผลลัพธ์อย่างไร

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

แบบจำลองการถดถอยปัวซองคืออะไร?

ตัวแบบเชิงเส้นทั่วไปแตกต่างจากตัวแบบเชิงเส้นทั่วไปอย่างไร

ข้อสันนิษฐานบางประการที่แบบจำลองเชิงเส้นทั่วไปสร้างขึ้นคืออะไร

สมมติฐาน GLM ส่วนใหญ่เทียบได้กับตัวแบบการถดถอยเชิงเส้น แต่ข้อสมมติการถดถอยเชิงเส้นบางส่วนมีการเปลี่ยนแปลง ข้อมูลใน GLM จะถือว่าเป็นอิสระและสุ่ม ข้อผิดพลาดก็ถือว่าเป็นอิสระเช่นกัน แม้ว่าจะไม่จำเป็นต้องกระจายอย่างสม่ำเสมอก็ตาม แม้ว่าตัวแปรการตอบสนองไม่จำเป็นต้องเป็นอิสระ แต่การกระจายควรเป็นของตระกูลเลขชี้กำลัง