6 ประเภทของแบบจำลองการถดถอยในการเรียนรู้ของเครื่องที่คุณควรทราบ

เผยแพร่แล้ว: 2020-07-27

สารบัญ

บทนำ

การถดถอยเชิงเส้นและการถดถอยโลจิสติกเป็นเทคนิคการวิเคราะห์การถดถอยสอง ประเภท ที่ใช้ในการแก้ปัญหาการถดถอยโดยใช้การเรียนรู้ของเครื่อง เป็นเทคนิคการถดถอยที่โดดเด่นที่สุด แต่มีเทคนิคการวิเคราะห์การถดถอยหลายประเภทในการเรียนรู้ของเครื่อง และการใช้งานจะแตกต่างกันไปตามลักษณะของข้อมูลที่เกี่ยวข้อง

บทความนี้จะอธิบายการถดถอยประเภทต่างๆ ในการเรียนรู้ของเครื่อง และแต่ละเงื่อนไขจะใช้ได้ภายใต้เงื่อนไขใด หากคุณยังใหม่ต่อการเรียนรู้ของเครื่อง บทความนี้จะช่วยคุณในการทำความเข้าใจแนวคิดการสร้างแบบจำลองการถดถอยอย่างแน่นอน

การวิเคราะห์การถดถอยคืออะไร?

การวิเคราะห์การถดถอยเป็นเทคนิคการสร้างแบบจำลองการคาดการณ์ที่วิเคราะห์ความสัมพันธ์ระหว่างเป้าหมายหรือตัวแปรตามและตัวแปรอิสระในชุดข้อมูล เทคนิค การวิเคราะห์การถดถอยประเภทต่างๆ จะ ใช้เมื่อตัวแปรเป้าหมายและตัวแปรอิสระแสดงความสัมพันธ์เชิงเส้นหรือไม่เชิงเส้นระหว่างกัน และตัวแปรเป้าหมายมีค่าต่อเนื่อง เทคนิคการถดถอยส่วนใหญ่จะใช้เพื่อกำหนดความแข็งแกร่งของตัวทำนาย แนวโน้มการคาดการณ์ อนุกรมเวลา และในกรณีของความสัมพันธ์ของเหตุและผล

การวิเคราะห์การถดถอยเป็นเทคนิคหลักในการแก้ปัญหาการถดถอยในการเรียนรู้ของเครื่องโดยใช้การสร้างแบบจำลองข้อมูล มันเกี่ยวข้องกับการกำหนดเส้นที่พอดีที่สุด ซึ่งเป็นเส้นที่ผ่านจุดข้อมูลทั้งหมดในลักษณะที่ระยะห่างของเส้นจากจุดข้อมูลแต่ละจุดจะลดลง

ประเภทของเทคนิคการวิเคราะห์การถดถอย

มี เทคนิคการวิเคราะห์การถดถอยหลายประเภท และการใช้แต่ละวิธีขึ้นอยู่กับปัจจัยหลายประการ ปัจจัยเหล่านี้รวมถึงประเภทของตัวแปรเป้าหมาย รูปร่างของเส้นการถดถอย และจำนวนของตัวแปรอิสระ

ด้านล่างนี้เป็นเทคนิคการถดถอยต่างๆ:

  1. การถดถอยเชิงเส้น
  2. การถดถอยโลจิสติก
  3. การถดถอยของสันเขา
  4. Lasso Regression
  5. การถดถอยพหุนาม
  6. การถดถอยเชิงเส้นแบบเบย์

มีการอธิบายรายละเอียดการถดถอยประเภทต่างๆ ของเทคนิคแมชชีนเลิร์นนิงไว้ด้านล่าง:

1. การถดถอยเชิงเส้น

การถดถอยเชิงเส้นเป็นหนึ่งใน ประเภทการถดถอย พื้นฐานที่สุด ในการเรียนรู้ ของ เครื่อง ตัวแบบการถดถอยเชิงเส้นประกอบด้วยตัวแปรทำนายและตัวแปรตามที่เกี่ยวข้องกันเป็นเส้นตรง ในกรณีที่ข้อมูลเกี่ยวข้องกับตัวแปรอิสระมากกว่าหนึ่งตัว การถดถอยเชิงเส้นจะเรียกว่าตัวแบบการถดถอยเชิงเส้นหลายตัว

สมการด้านล่างนี้ใช้เพื่อแสดงตัวแบบการถดถอยเชิงเส้น:

y=mx+c+e

โดยที่ m คือความชันของเส้นตรง c คือจุดตัด และ e หมายถึงความคลาดเคลื่อนในแบบจำลอง

แหล่งที่มา

เส้นที่พอดีที่สุดถูกกำหนดโดยการเปลี่ยนแปลงค่าของ m และ c ข้อผิดพลาดของตัวทำนายคือความแตกต่างระหว่างค่าที่สังเกตได้และค่าที่คาดการณ์ไว้ ค่าของ m และ c ถูกเลือกในลักษณะที่ทำให้มีข้อผิดพลาดของตัวทำนายขั้นต่ำ สิ่งสำคัญคือต้องสังเกตว่าตัวแบบการถดถอยเชิงเส้นอย่างง่ายมีความอ่อนไหวต่อค่าผิดปกติ ดังนั้นจึงไม่ควรใช้ในกรณีข้อมูลขนาดใหญ่

2. การถดถอยโลจิสติก

การถดถอยโลจิสติกเป็นเทคนิคการวิเคราะห์การถดถอยประเภทหนึ่ง ซึ่งใช้เมื่อตัวแปรตามไม่ต่อเนื่องกัน ตัวอย่าง: 0 หรือ 1 จริงหรือเท็จ เป็นต้น ซึ่งหมายความว่าตัวแปรเป้าหมายสามารถมีค่าได้เพียงสองค่า และเส้นโค้งซิกมอยด์แสดงถึงความสัมพันธ์ระหว่างตัวแปรเป้าหมายและตัวแปรอิสระ

ฟังก์ชัน Logit ใช้ใน Logistic Regression เพื่อวัดความสัมพันธ์ระหว่างตัวแปรเป้าหมายและตัวแปรอิสระ ด้านล่างนี้คือสมการที่แสดงถึงการถดถอยโลจิสติก

logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3….+bkXk

โดยที่ p คือความน่าจะเป็นที่จะเกิดขึ้นของคุณลักษณะ

แหล่งที่มา

สำหรับการเลือกการถดถอยโลจิสติก เป็นเทคนิคการวิเคราะห์การถดถอย ควรสังเกตว่า ขนาดของข้อมูลมีขนาดใหญ่ โดยมีค่าเกิดขึ้นเกือบเท่ากันในตัวแปรเป้าหมาย นอกจากนี้ ไม่ควรมี multicollinearity ซึ่งหมายความว่าไม่ควรมีความสัมพันธ์ระหว่างตัวแปรอิสระในชุดข้อมูล

3. การถดถอยของสันเขา

แหล่งที่มา

นี่เป็นอีก ประเภทหนึ่งของการถดถอยในการเรียนรู้ของเครื่อง ซึ่งมักใช้เมื่อมีความสัมพันธ์สูงระหว่างตัวแปรอิสระ นี่เป็นเพราะในกรณีของข้อมูลหลายคอลลิเนียร์ การประมาณค่ากำลังสองน้อยที่สุดจะให้ค่าที่ไม่เอนเอียง แต่ในกรณีที่ collinearity สูงมาก อาจมีค่าอคติอยู่บ้าง ดังนั้นจึงแนะนำเมทริกซ์อคติในสมการการถดถอยของสันเขา นี่เป็นวิธีการถดถอยที่ทรงพลัง โดยที่ตัวแบบมีความอ่อนไหวน้อยต่อการใส่มากเกินไป

ด้านล่างนี้คือสมการที่ใช้เพื่อแสดงถึงการถดถอยของสัน ซึ่งการแนะนำของ λ (แลมบ์ดา) แก้ปัญหาของ

β = (X^{T}X + λ*I)^{-1}X^{T}y

เช็คเอาท์: 5 แอปพลิเคชั่นสุดล้ำของการเรียนรู้ของเครื่อง

4. การถดถอยแบบ Lasso

Lasso Regression เป็นหนึ่งใน ประเภทของการถดถอยในการเรียนรู้ของเครื่อง ที่ทำการปรับให้เป็นมาตรฐานพร้อมกับการเลือกคุณสมบัติ มันห้ามขนาดสัมบูรณ์ของสัมประสิทธิ์การถดถอย เป็นผลให้ค่าสัมประสิทธิ์เข้าใกล้ศูนย์มากขึ้น ซึ่งจะไม่เกิดขึ้นในกรณีของการถดถอยของสันเขา

ด้วยเหตุนี้ การเลือกคุณลักษณะจึงถูกใช้ใน Lasso Regression ซึ่งช่วยให้สามารถเลือกชุดคุณลักษณะจากชุดข้อมูลเพื่อสร้างแบบจำลองได้ ในกรณีของ Lasso Regression จะใช้เฉพาะคุณสมบัติที่จำเป็นเท่านั้น ส่วนคุณสมบัติอื่นๆ จะกลายเป็นศูนย์ ซึ่งจะช่วยในการหลีกเลี่ยงการใส่มากเกินไปในแบบจำลอง ในกรณีที่ตัวแปรอิสระเป็นแบบ collinear สูง การถดถอยแบบ Lasso จะเลือกตัวแปรเพียงตัวเดียวและทำให้ตัวแปรอื่นๆ ลดขนาดลงเหลือศูนย์

แหล่งที่มา

ด้านล่างนี้คือสมการที่แสดงถึงวิธีการถดถอยแบบ Lasso:

N^{-1}Σ^{N}_{i=1}f(x_{i}, y_{I}, α, β)

5. การถดถอยพหุนาม

การถดถอยพหุนามเป็น เทคนิค การวิเคราะห์การถดถอยอีกประเภท หนึ่ง ในการเรียนรู้ของเครื่อง ซึ่งเหมือนกับการถดถอยเชิงเส้นพหุคูณที่มีการดัดแปลงเล็กน้อย ในการถดถอยพหุนาม ความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม นั่นคือ X และ Y แสดงโดยดีกรีที่ n

เป็นแบบจำลองเชิงเส้นเป็นตัวประมาณ วิธีค่าเฉลี่ยน้อยที่สุดยังใช้ในการถดถอยพหุนามด้วย เส้นที่พอดีที่สุดในการถดถอยพหุนามที่ผ่านจุดข้อมูลทั้งหมดไม่ใช่เส้นตรง แต่เป็นเส้นโค้ง ซึ่งขึ้นอยู่กับกำลังของ X หรือค่าของ n

แหล่งที่มา

ขณะพยายามลด Mean Squared Error ให้เหลือน้อยที่สุดและเพื่อให้ได้เส้นที่พอดีที่สุด แบบจำลองอาจมีแนวโน้มที่จะใส่มากเกินไป ขอแนะนำให้วิเคราะห์เส้นโค้งในตอนท้ายเนื่องจากพหุนามที่สูงกว่าสามารถให้ผลลัพธ์ที่แปลกประหลาดในการอนุมานได้

สมการด้านล่างแสดงถึงการถดถอยพหุนาม:

ล. = β0+ β0x1+ε

อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง

6. การถดถอยเชิงเส้นแบบเบย์

การถดถอยแบบเบย์เป็นหนึ่งใน ประเภทของการถดถอยในการเรียนรู้ของเครื่อง ที่ใช้ทฤษฎีบทเบย์เพื่อค้นหาค่าของสัมประสิทธิ์การถดถอย ในวิธีการถดถอยนี้ การกระจายส่วนหลังของคุณลักษณะจะถูกกำหนดแทนที่จะหากำลังสองน้อยที่สุด การถดถอยเชิงเส้นแบบเบย์นั้นเหมือนกับทั้งการถดถอยเชิงเส้นและการถดถอยริดจ์ แต่มีความเสถียรมากกว่าการถดถอยเชิงเส้นอย่างง่าย

แหล่งที่มา

เรียนรู้ หลักสูตร AI & ML ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก – ปริญญาโท หลักสูตร Executive Post Graduate และหลักสูตรประกาศนียบัตรขั้นสูงใน ML & AI เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

บทสรุป

นอกจากวิธีการถดถอยข้างต้นแล้ว ยังมี การถดถอยประเภทอื่นๆ อีกมากมายในการเรียนรู้ของเครื่อง ซึ่งรวมถึง Elastic Net Regression, JackKnife Regression, Stepwise Regression และ Ecological Regression

เทคนิค การวิเคราะห์การถดถอยประเภทต่างๆ เหล่านี้ สามารถใช้สร้างแบบจำลองได้ขึ้นอยู่กับชนิดของข้อมูลที่มีอยู่หรือข้อมูลที่ให้ความแม่นยำสูงสุด คุณสามารถสำรวจเทคนิคเหล่านี้เพิ่มเติมหรือสามารถเรียนรู้ภายใต้การดูแลบน เว็บไซต์ ของ เรา

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's Executive PG Program in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT -B สถานะศิษย์เก่า 5+ โครงการหลักที่ปฏิบัติได้จริง & ความช่วยเหลืองานกับ บริษัท ชั้นนำ

การถดถอยประเภทต่าง ๆ มีอะไรบ้าง?

การถดถอยมี 5 ประเภท คือ 1. การถดถอยเชิงเส้น 2. การถดถอยโลจิสติก 3. การถดถอยสันเขา 4. การถดถอยแบบลาสโซ่ 5. การถดถอยพหุนามเป็นการถดถอยประเภทต่างๆ

การถดถอยคืออะไร? การถดถอยมีกี่ประเภท?

การถดถอยเป็นเทคนิคการเรียนรู้ของเครื่องภายใต้การดูแล ซึ่งใช้ในการทำนายค่าที่ต่อเนื่องกัน เป้าหมายสูงสุดของอัลกอริธึมการถดถอยคือการพลอตเส้นที่เหมาะสมที่สุดหรือเส้นโค้งระหว่างข้อมูลกับการถดถอยเชิงเส้น การถดถอยโลจิสติก การถดถอยสันเขา การถดถอยแบบ Lasso การถดถอยพหุนามเป็นประเภทของการถดถอย

ฉันควรใช้การวิเคราะห์การถดถอยเมื่อใด

การวิเคราะห์การถดถอยจะใช้เมื่อคุณต้องการทำนายตัวแปรตามอย่างต่อเนื่องจากตัวแปรอิสระจำนวนหนึ่ง หากตัวแปรตามเป็นไดโคโตมัส ก็ควรใช้การถดถอยโลจิสติก