แบบจำลองการถดถอยเชิงเส้น: มันคืออะไรและทำงานอย่างไร

เผยแพร่แล้ว: 2020-12-16

สารบัญ

บทนำ

การวิเคราะห์การถดถอยเป็นเครื่องมือสำคัญสำหรับการสร้างแบบจำลองและการวิเคราะห์ข้อมูล จำเป็นต้องค้นหาความสัมพันธ์ระหว่างตัวแปรตั้งแต่สองตัวขึ้นไป การถดถอยช่วยในการวางจุดข้อมูลภายในเส้นโค้งที่ช่วยในการสร้างแบบจำลองและวิเคราะห์ข้อมูล การถดถอยช่วยให้สามารถวัดและกำหนดลักษณะของตัวแปรในระดับต่างๆ สำหรับการประเมินแบบจำลองการคาดการณ์และชุดข้อมูล

ต้องอ่าน: แนวคิดโครงการถดถอยเชิงเส้น

แบบจำลองการถดถอย

แบบจำลองเกี่ยวข้องกับค่าของสัมประสิทธิ์ที่ใช้ในการแสดงข้อมูล รวมถึงคุณสมบัติทางสถิติที่ใช้ในการประมาณค่าสัมประสิทธิ์เหล่านั้น มันเป็นการผสมผสานของค่าเบี่ยงเบนมาตรฐาน ความแปรปรวนร่วม และสหสัมพันธ์ทั้งหมดเข้าด้วยกัน ข้อมูลทั้งหมดจะต้องมีอยู่

ตัวแบบการถดถอยเป็นเงื่อนไขเชิงเส้นที่รวมการจัดเรียงเฉพาะของค่าข้อมูล (x) คำตอบซึ่งเป็นผลลัพธ์ที่คาดการณ์ไว้สำหรับชุดของค่าข้อมูลนั้น (y) ทั้งค่าข้อมูล (x) และผลลัพธ์เป็นตัวเลข

สมการเชิงเส้นกำหนดตัวประกอบมาตราส่วนหนึ่งตัวให้กับค่าข้อมูลหรือส่วนข้อมูลแต่ละค่า เรียกว่าสัมประสิทธิ์และเขียนแทนด้วยอักษรกรีกตัวพิมพ์ใหญ่ Beta (B) ค่าสัมประสิทธิ์พิเศษอีกหนึ่งตัวก็ถูกเพิ่มเข้ามาเช่นกัน ทำให้เส้นมีโอกาสเพิ่มขึ้นอีกระดับหนึ่ง (เช่น ไปทั่วทั้งโครงแบบสองมิติ) และสิ่งนี้มักเรียกว่าการจับตัวหรือสัมประสิทธิ์ความเอียง

ตัวอย่างเช่น ในการถดถอยพื้นฐาน (x ธรรมดาและ y ธรรมดา) ประเภทของแบบจำลองจะเป็น:

y = B0 + B1*x

ในการวัดที่สูงขึ้นเมื่อเรามีข้อมูลมากกว่าหนึ่ง (x) เส้นนี้เรียกว่าระนาบหรือไฮเปอร์เพลน การพรรณนาตามเส้นเหล่านี้เป็นประเภทของเงื่อนไขและคุณสมบัติเฉพาะที่ใช้สำหรับสัมประสิทธิ์ (เช่น B0 และ B1 ในแบบจำลองด้านบน)

ฉัน ไม่ได้คาดคิดมาก่อนเลยที่จะพูดคุยถึงลักษณะหลายแง่มุมของแบบจำลองการกำเริบของโรค เช่น การถดถอย นี่หมายถึงจำนวนสัมประสิทธิ์ที่ใช้ในแบบจำลอง

เมื่อสัมประสิทธิ์กลายเป็นศูนย์ ค่าสัมประสิทธิ์จะขจัดผลกระทบของตัวแปรข้อมูลในแบบจำลองอย่างเพียงพอ และต่อมาจากการพยากรณ์ที่ผลิตโดยใช้แบบจำลอง (0 * x = 0) สิ่งนี้เกี่ยวข้องในกรณีที่คุณดูเทคนิคการทำให้เป็นมาตรฐานที่เปลี่ยนการคำนวณการเรียนรู้เพื่อลดลักษณะหลายแง่มุมของแบบจำลองการกำเริบของโรคโดยการบีบขนาดสูงสุดของสัมประสิทธิ์ ขับบางส่วนให้เหลือศูนย์

การถดถอยจะแสดงได้ดีที่สุดด้วยเส้นตรงที่ใช้ตัวแปรตั้งแต่หนึ่งตัวขึ้นไปเพื่อสร้างความสัมพันธ์

ตรรกะเบื้องหลังโมเดล:

เนื่องจากตัวแบบถดถอยใช้สมการ y=mx+c

โดยที่ y= ตัวแปรอิสระ

m= ความชัน

c= สกัดกั้นสำหรับบรรทัดที่กำหนด

ในการคำนวณตัวแปรอิสระหลายตัว ตัวแบบการถดถอยหลายตัวจะถูกนำไปใช้งาน นี่คือขั้นตอนในการสร้างแบบจำลองการทำงานที่สมบูรณ์แบบ

  1. ไลบรารีนำเข้า - มีพารามิเตอร์สำคัญที่เกี่ยวข้องกับการนำโมเดลการเรียนรู้ของเครื่องไปใช้ ไลบรารีแรกควรมี sklearn เนื่องจากเป็นไลบรารีการเรียนรู้ของเครื่องอย่างเป็นทางการใน python Numpy ใช้เพื่อแปลงข้อมูลเป็นอาร์เรย์ และเพื่อเข้าถึงไฟล์สำหรับชุดข้อมูล Pandas จะถูกนำไปใช้
  2. โหลดชุดข้อมูลสัมพัทธ์ - ทำได้โดยใช้ตัวแปร Panda ที่นำเข้ามาก่อนหน้านี้
  3. แยกตัวแปร - ระบุและกำหนดจำนวนของตัวแปรอิสระหรือตัวแปรตามที่จำเป็นสำหรับองค์ประกอบอาร์เรย์
  4. การแยกข้อมูลการทดสอบและการฝึกอบรม - ชุดข้อมูลทั้งหมดแบ่งออกเป็นโดเมนการฝึกอบรมและการทดสอบเพื่ออนุญาตและอำนวยความสะดวกให้กับค่าสุ่มที่นำมาจากชุดข้อมูล
  5. เลือกโมเดล ที่เหมาะสม - ตัวเลือกที่เหมาะสมจะต้องมีกระบวนการทดลองและข้อผิดพลาด โดยที่ชุดข้อมูลเดียวกันจะมีความหมายกับโมเดลอื่นๆ
  6. การทำนายผลลัพธ์ - โมเดลจะทำงานบนตัวแปรตามที่ได้รับการสนับสนุนจากค่าทดสอบจากตัวแปรอิสระ วิธีการ inbuilt สำหรับแบบจำลองเหล่านี้จะคำนวณเชิงคุณภาพสำหรับแต่ละค่าที่นำเสนอ

สิ่งนี้จะเริ่มต้นการนำแบบจำลองการถดถอยเชิงเส้นไปใช้ ฟังก์ชันตัวทำนายเชิงเส้นถูกนำมาใช้สำหรับการสร้างแบบจำลองความสัมพันธ์ ดังที่ได้กล่าวไว้ก่อนหน้านี้ ค่าเฉลี่ยตามเงื่อนไขของการตอบสนองทำให้ตัวแบบมีตัวทำนายที่จำเป็นในการย้ายค่าเฉลี่ยแบบมีเงื่อนไขของการตอบสนอง

เป้าหมายสำหรับการคาดการณ์และการคาดการณ์ดังกล่าวคือเพื่อรองรับตัวแปรเพิ่มเติมโดยไม่ต้องเพิ่มค่าการตอบสนอง แบบจำลองที่ติดตั้งไว้จะถูกนำไปใช้เพื่อคาดการณ์ที่จำเป็นสำหรับการตอบสนองนั้น

ควรใช้แบบจำลองการถดถอยเชิงเส้นมากที่สุดกับวิธีกำลังสองน้อยที่สุด ซึ่งการใช้งานอาจต้องใช้วิธีอื่นโดยการลดความเบี่ยงเบนและฟังก์ชันต้นทุนให้น้อยที่สุด เป็นต้น ตัวแบบเชิงเส้นทั่วไปรวมถึงตัวแปรตอบสนองที่เป็นเวกเตอร์ในธรรมชาติและไม่ใช่สเกลาร์โดยตรง ความเป็นเชิงเส้นแบบมีเงื่อนไขยังคงเป็นบวกเหนือกระบวนการสร้างแบบจำลอง พวกมันแตกต่างกันไปตามสเกลขนาดใหญ่ แต่อธิบายได้ดีกว่าว่าเป็นการกระจายแบบเบ้ ซึ่งสัมพันธ์กับการแจกแจงแบบล็อกปกติ

อ่าน: ประเภทของแบบจำลองการถดถอยในการเรียนรู้ของเครื่อง

คำเตือน

เนื่องจากตัวแปรทั้งสองมีความเกี่ยวข้องกัน จึงไม่ตัดคุณลักษณะที่ตัวแปรหนึ่งเป็นสาเหตุให้อีกตัวแปรหนึ่ง

หากพยายามใช้สมการถดถอยเชิงเส้นสำหรับชุดข้อมูลและได้ผล ก็ไม่ได้หมายความว่าสมการจะเหมาะสมที่สุดเสมอไป อาจมีการวนซ้ำอื่นๆ ที่มีแนวโน้มคล้ายกัน เพื่อให้แน่ใจว่าเทคนิคนี้เป็นของแท้ ให้ลองพล็อตเส้นที่มีจุดข้อมูลเพื่อหาความเป็นเส้นตรงของสมการ

เพื่อสรุป

ได้รับการพิสูจน์แล้วว่าวิธีการถดถอยเชิงเส้นเป็นวิธีที่ดีกว่า มีประสิทธิภาพ และเป็นสถิติที่ช่วยเพิ่มโอกาสและค้นหาความสามารถในการคาดการณ์เหตุการณ์และความสัมพันธ์ระหว่างตัวแปรสองตัวหรือมากกว่าที่สนใจในเรื่อง

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

พูดถึงปัญหาที่อาจเผชิญได้ในขณะที่ใช้ตัวแบบการถดถอยเชิงเส้น

การถดถอยเชิงเส้นช่วยในการทำนายความสัมพันธ์ระหว่างค่าเฉลี่ยของตัวแปรตามกับปัจจัยอิสระ สิ่งนี้กลายเป็นปัญหาเพราะบางครั้งวิธีเดียวที่จะแก้ปัญหาคือการดูค่าสุดขีดของตัวแปรตาม การถดถอยเชิงปริมาณสามารถใช้แก้ปัญหานี้ได้ นอกจากนี้ การถดถอยเชิงเส้นถือว่าข้อมูลที่นำเสนอมีความเป็นอิสระ ซึ่งไม่ถูกต้องในกรณีที่เกิดปัญหาการจัดกลุ่ม

สัมประสิทธิ์สหสัมพันธ์เชิงเส้นในการถดถอยคืออะไร?

สัมประสิทธิ์สหสัมพันธ์เป็นเพียงแง่มุมหนึ่งของการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรในการถดถอยเชิงเส้นอย่างง่าย อันที่จริง มันเป็นหนึ่งในวิธีการวิเคราะห์ทางสถิติที่ทรงพลังและใช้กันอย่างแพร่หลายที่สุด สัมประสิทธิ์สหสัมพันธ์ระหว่างช่วงเวลาของผลิตภัณฑ์เพียร์สัน ซึ่งโดยพื้นฐานแล้วเป็นสถิติที่แจ้งให้เราทราบว่าตัวแปรสองตัวเชื่อมโยงกันอย่างใกล้ชิดเพียงใด เป็นค่าสัมประสิทธิ์สหสัมพันธ์ที่ใช้บ่อยที่สุด ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นจะประเมินความแข็งแรงของความสัมพันธ์เชิงเส้นระหว่างสองตัวแปร การเชื่อมต่อเชิงเส้นที่สมบูรณ์แบบเป็นสิ่งที่การเปลี่ยนแปลงในตัวแปรหนึ่งทำให้เกิดการเปลี่ยนแปลงหน่วยที่เหมือนกันในตัวแปรอื่น

การวิเคราะห์การถดถอยมีประโยชน์ในธุรกิจอย่างไร?

การวิเคราะห์การถดถอยช่วยให้องค์กรเข้าใจว่าจุดข้อมูลแสดงถึงอะไร และนำวิธีการวิเคราะห์ทางธุรกิจมาประยุกต์ใช้กับองค์กรเพื่อการตัดสินใจที่ดีขึ้น นักวิเคราะห์ธุรกิจและผู้เชี่ยวชาญด้านข้อมูลใช้เครื่องมือทางสถิติที่ซับซ้อนนี้ เพื่อขจัดตัวแปรที่ไม่จำเป็นและเลือกตัวแปรที่เกี่ยวข้องมากที่สุด องค์กรต่างๆ กำลังใช้การตัดสินใจที่ขับเคลื่อนด้วยข้อมูล ซึ่งขจัดเทคนิคแบบเก่า เช่น การคาดเดาหรือการตั้งสมมติฐาน และผลที่ได้คือประสิทธิภาพการทำงานที่เพิ่มขึ้น