รู้ว่าเหตุใดแบบจำลองเชิงเส้นตรงทั่วไปจึงเป็นแบบจำลองการสังเคราะห์ที่น่าทึ่ง!
เผยแพร่แล้ว: 2020-11-17สารบัญ
ทำความเข้าใจพื้นฐาน
GLM มีชื่อเสียงมากในหมู่บุคคลที่จัดการกับแบบจำลองการถดถอยต่างๆ ตั้งแต่แบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกไปจนถึงแบบจำลองสำหรับการวิเคราะห์การอยู่รอด คำว่า โมเดลเชิงเส้นทั่วไป (GLIM หรือ GLM ) ได้รับการประกาศเกียรติคุณและทำความคุ้นเคยโดย McCullagh (1982) และ Nelder (ฉบับที่ 2 1989) GLM ในรูปแบบที่ง่ายที่สุดตามที่อธิบายไว้ใน Rutherford 2001 Data = Model + Error มีกรอบการทำงานที่เป็นประโยชน์ซึ่งเป็นพื้นฐานของการทดสอบทางสถิติต่างๆ
ทบทวนคลาสของโมเดล
- แบบจำลองการถดถอยเชิงเส้นคลาสสิก (CLR) หรือที่เรียกว่าแบบจำลองการถดถอยเชิงเส้น
- การวิเคราะห์แบบจำลองความแปรปรวน (ANOVA)
- โมเดลที่ทำนายโอกาสชนะ เช่น ความน่าจะเป็นของเครื่องจักรล้มเหลว
- โมเดลที่ใช้อธิบายและทำนายจำนวนเหตุการณ์
- แบบจำลองสำหรับการประมาณอายุขัยของสิ่งมีชีวิตและไม่มีชีวิต เช่น ผู้แปรรูปหรืออายุทางชีวภาพของพืช เป็นต้น
Generalized Linear Model ตาม ชื่อของมัน เปรียบเสมือนหลังคาสำหรับโมเดลทั้งหมดที่กล่าวมาข้างต้น พร้อมการคำนวณและการประมาณที่ปรับปรุงดีขึ้น
โครงสร้างของตัวแบบเชิงเส้นทั่วไป
แบบ จำลองเชิงเส้นทั่วไป (หรือ GLM1) ประกอบด้วยสามองค์ประกอบหลัก:
- ส่วนประกอบสุ่ม: ส่วนประกอบสุ่มที่เรียกว่าแบบจำลองสัญญาณรบกวนหรือแบบจำลองข้อผิดพลาดคือการแจกแจงความน่าจะเป็นของตัวแปรตอบสนอง (Y)
- องค์ประกอบที่เป็นระบบ : ตัวทำนายเชิงเส้นเป็นฟังก์ชันเชิงเส้นของตัวถดถอย ดังที่กล่าวไว้ด้านล่าง:
ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
- ฟังก์ชันลิงก์ (แสดงด้วย η หรือ g(μ) ): ตามที่ชื่อบอกถึงความเชื่อมโยงระหว่างส่วนประกอบที่เป็นระบบและแบบสุ่ม
ตัวอย่าง : μi = E(Yi) ไปยังตัวทำนายเชิงเส้น g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
Generalized Linear Model ใช้กับข้อมูลโดยกระบวนการของความเป็นไปได้สูงสุด สิ่งนี้ให้ค่าประมาณของสัมประสิทธิ์การถดถอยและข้อผิดพลาดมาตรฐานเชิงซีมโทติกโดยประมาณของสัมประสิทธิ์

GLM พื้นฐาน สำหรับข้อมูลการนับคือโมเดลปัวซองที่มีลิงก์บันทึก อย่างไรก็ตาม เมื่อตัวแปรตอบสนองเป็นการนับ ความแปรปรวนตามเงื่อนไขจะเพิ่มขึ้นเร็วกว่าค่าเฉลี่ย ทำให้เกิดเงื่อนไขที่เรียกว่าการกระจายเกินและทำให้การใช้การแจกแจงปัวซองเป็นโมฆะ GLM เสมือน-ปัวซอง เพิ่มพารามิเตอร์การกระจายเพื่อจัดการข้อมูลการนับที่กระจายมากเกินไป
โดยทั่วไป การประมาณค่าความน่าจะเป็นเสมือนเป็นวิธีหนึ่งที่ช่วยให้เกิดการกระจายเกิน ซึ่งเป็นความแปรปรวนที่มีนัยสำคัญในข้อมูลมากกว่าที่คาดไว้จากแบบจำลองทางสถิติที่ใช้

โมเดลที่คล้ายกันนี้ใช้การแจกแจงทวินามลบ ซึ่งไม่ใช่แฟมิลีเอ็กซ์โปเนนเชียล ทวินามเชิงลบใน แบบจำลองเชิงเส้นทั่วไป ไม่สามารถกำหนดโดยความเป็นไปได้สูงสุด แบบจำลองการถดถอยปัวซองแบบเติมลมเป็นศูนย์อาจเหมาะที่สุดเมื่อมีศูนย์ในข้อมูลมากกว่าที่สอดคล้องกับการแจกแจงปัวซอง
อ่าน: อธิบายแบบจำลองการเรียนรู้ของเครื่อง

ข้อดีของตัวแบบเชิงเส้นตรงทั่วไปเหนือการถดถอยสามัญน้อยที่สุด (OLS) แบบดั้งเดิม
มีข้อดีหลายประการของตัวแบบเชิงเส้นตรงทั่วไปเหนือการถดถอย OLS ซึ่งสามารถสรุปได้ดังนี้:
- ไม่เหมือนกับการถดถอยของ OLS การตอบสนอง Y ไม่จำเป็นต้องถูกแปลงทุกครั้งเพื่อให้มีการแจกแจงแบบปกติ
- การสร้างแบบจำลองมีความยืดหยุ่นมากขึ้น เนื่องจากการเลือกลิงก์แตกต่างจากการเลือกส่วนประกอบแบบสุ่ม
- ไม่จำเป็นต้องใช้ความแปรปรวนคงที่หากลิงก์ให้เอฟเฟกต์เพิ่มเติม
- เรามีคุณสมบัติที่เหมาะสมที่สุดของตัวประมาณ เนื่องจากแบบจำลองต่างๆ ถูกแนบผ่านการประมาณค่าความน่าจะเป็นสูงสุด
- เครื่องมือการอนุมานและการตรวจสอบแบบจำลองทั้งหมดสำหรับแบบจำลองการถดถอยของบันทึกเชิงเส้นและลอจิสติกส์ก็มีผลกับ GLM อื่นๆ ด้วย
- โดยปกติจะมีเพียงกระบวนการเดียว (ขั้นตอนหรือฟังก์ชัน) ในแพ็คเกจซอฟต์แวร์เพื่อบันทึกโมเดลทั้งหมดที่ระบุไว้ในตารางด้านบน ใช้ตัวอย่างเช่น glm() (ภาษา R) หรือ PROC GENMOD (SAS)
ข้อเสียของตัวแบบเชิงเส้นตรงทั่วไป
นอกเหนือจากข้อดีที่กล่าวข้างต้นแล้ว ยังมีข้อเสียที่สำคัญสองประการที่ควรรู้:
- ข้อจำกัดบางอย่าง เช่น ฟังก์ชันเชิงเส้นสามารถมีได้เพียงตัวทำนายเชิงเส้นในองค์ประกอบที่เป็นระบบ
- การตอบสนองไม่สามารถพึ่งพาซึ่งกันและกัน
ต้องอ่าน: อธิบายแนวคิดโครงการการเรียนรู้ของเครื่อง
บทสรุป
หากเราสรุปข้อมูลข้างต้นทั้งหมด เราพบว่า GLM สะดวกและซับซ้อนน้อยกว่า ด้วย GLM ตัวแปรการตอบสนองสามารถมีรูปแบบการแจกแจงแบบเอ็กซ์โพเนนเชียลรูปแบบใดก็ได้ นอกเหนือจากนี้ มันสามารถจัดการกับตัวทำนายหมวดหมู่ ตัวแบบเชิงเส้นทั่วไปนั้นมีความเกี่ยวข้องกัน ง่ายต่อการตีความ และช่วยให้เข้าใจอย่างชัดเจนว่าตัวทำนายแต่ละตัวมีอิทธิพลต่อผลลัพธ์อย่างไร
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
แบบจำลองการถดถอยปัวซองคืออะไร?
ตัวแบบเชิงเส้นทั่วไปแตกต่างจากตัวแบบเชิงเส้นทั่วไปอย่างไร
ข้อสันนิษฐานบางประการที่แบบจำลองเชิงเส้นทั่วไปสร้างขึ้นคืออะไร
สมมติฐาน GLM ส่วนใหญ่เทียบได้กับตัวแบบการถดถอยเชิงเส้น แต่ข้อสมมติการถดถอยเชิงเส้นบางส่วนมีการเปลี่ยนแปลง ข้อมูลใน GLM จะถือว่าเป็นอิสระและสุ่ม ข้อผิดพลาดก็ถือว่าเป็นอิสระเช่นกัน แม้ว่าจะไม่จำเป็นต้องกระจายอย่างสม่ำเสมอก็ตาม แม้ว่าตัวแปรการตอบสนองไม่จำเป็นต้องเป็นอิสระ แต่การกระจายควรเป็นของตระกูลเลขชี้กำลัง