การถดถอยในการทำเหมืองข้อมูล: เทคนิคการถดถอยประเภทต่างๆ [2022]

เผยแพร่แล้ว: 2021-01-01

การเรียนรู้ภายใต้ การดูแล คือการเรียนรู้ที่คุณฝึกอัลกอริทึมการเรียนรู้ของเครื่องโดยใช้ข้อมูลที่ติดป้ายกำกับไว้แล้ว ซึ่งหมายความว่าคำตอบที่ถูกต้องเป็นที่รู้จักสำหรับข้อมูลการฝึกอบรมทั้งหมดแล้ว หลังการฝึกอบรม จะได้รับชุดข้อมูลที่ไม่รู้จักชุดใหม่ที่วิเคราะห์อัลกอริธึมการเรียนรู้ภายใต้การดูแล จากนั้นจึงสร้างผลลัพธ์ที่ถูกต้องตามข้อมูลการฝึกอบรมที่ติดป้ายกำกับ

การเรียนรู้แบบ ไม่มีผู้ดูแลเป็นที่ที่อัลกอริทึมได้รับการฝึกอบรมโดยใช้ข้อมูล ซึ่งไม่ทราบป้ายกำกับที่ถูกต้อง โดยพื้นฐานแล้วเครื่องจะต้องจัดกลุ่มข้อมูลตามรูปแบบต่างๆ หรือความสัมพันธ์ใดๆ โดยไม่ต้องอบรมกับข้อมูลใด ๆ ล่วงหน้า

การถดถอย เป็นรูปแบบหนึ่งของเทคนิคแมชชีนเลิร์นนิงภายใต้การดูแลที่พยายามทำนายแอตทริบิวต์ที่มีค่าอย่างต่อเนื่อง มันวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรเป้าหมาย (ขึ้นอยู่กับ) และตัวแปรทำนาย (อิสระ) การถดถอยเป็นเครื่องมือสำคัญสำหรับการวิเคราะห์ข้อมูลที่สามารถใช้สำหรับการสร้างแบบจำลองอนุกรมเวลา การคาดการณ์ และอื่นๆ

การถดถอยเกี่ยวข้องกับกระบวนการปรับเส้นโค้งหรือเส้นตรงให้พอดีกับจุดข้อมูลต่างๆ มันทำในลักษณะที่ระยะห่างระหว่างเส้นโค้งกับจุดข้อมูลออกมาน้อยที่สุด

แม้ว่าการถดถอยเชิงเส้นและลอจิสติกส์จะเป็นประเภทที่ได้รับความนิยมมากที่สุด แต่ก็มีการถดถอยประเภทอื่นๆ อีกมากที่สามารถใช้ได้ขึ้นอยู่กับประสิทธิภาพในชุดข้อมูลเฉพาะ ประเภทที่แตกต่างกันเหล่านี้แตกต่างกันไปเนื่องจากจำนวนและประเภทของตัวแปรตามทั้งหมดและชนิดของเส้นโค้งการถดถอยที่เกิดขึ้น

เช็คเอาท์: ความแตกต่างระหว่าง Data Science และ Data Mining

สารบัญ

การถดถอยเชิงเส้น
การถดถอยพหุนาม
การถดถอยโลจิสติก
การถดถอยของสันเขา
การถดถอยของ Lasso
บทสรุป
การถดถอยเชิงเส้นคืออะไร?
เทคนิคการถดถอยคืออะไรและเหตุใดจึงจำเป็น
เทคนิคการถดถอยเชิงเส้นแตกต่างจากเทคนิคการถดถอยโลจิสติกอย่างไร

การถดถอยเชิงเส้น

การถดถอยเชิงเส้นสร้างความสัมพันธ์ระหว่างตัวแปรเป้าหมาย (ขึ้นอยู่กับ) และตัวแปรอิสระอย่างน้อยหนึ่งตัวโดยใช้เส้นตรงที่เหมาะสมที่สุด

มันถูกแสดงโดยสมการ:

Y = a + b*X + e ,

โดยที่ a คือจุดตัด b คือความชันของเส้นถดถอย และ e คือค่าคลาดเคลื่อน X และ Y เป็นตัวทำนายและตัวแปรเป้าหมายตามลำดับ เมื่อ X ประกอบด้วยตัวแปรมากกว่าหนึ่งตัว (หรือคุณลักษณะ) จะเรียกว่าการถดถอยเชิงเส้นพหุคูณ

เส้นที่พอดีที่สุดทำได้โดยใช้วิธี Least-Squared วิธีนี้ช่วยลดผลรวมของกำลังสองของการเบี่ยงเบนจากจุดข้อมูลแต่ละจุดไปยังเส้นถดถอย ระยะลบและระยะบวกจะไม่ตัดกันตรงนี้ เนื่องจากความเบี่ยงเบนทั้งหมดถูกยกกำลังสอง

การถดถอยพหุนาม

ในการถดถอยพหุนาม กำลังของตัวแปรอิสระมากกว่า 1 ในสมการถดถอย ด้านล่างนี้เป็นตัวอย่าง:

Y = a + b*X^2

ในการถดถอยนี้ เส้นที่เหมาะสมที่สุดไม่ใช่เส้นตรงเหมือนในการถดถอยเชิงเส้น อย่างไรก็ตาม เป็นเส้นโค้งที่พอดีกับจุดข้อมูลทั้งหมด

การใช้การถดถอยพหุนามอาจส่งผลให้มีความเหมาะสมมากเกินไปเมื่อคุณอยากลดข้อผิดพลาดด้วยการทำให้เส้นโค้งซับซ้อนขึ้น ดังนั้น พยายามปรับให้เข้ากับส่วนโค้งเสมอโดยสรุปให้เข้ากับปัญหา

การถดถอยโลจิสติก

การถดถอยโลจิสติกจะใช้เมื่อตัวแปรตามมีลักษณะไบนารี (จริงหรือเท็จ 0 หรือ 1 สำเร็จหรือล้มเหลว) ที่นี่ค่าเป้าหมาย (Y) มีตั้งแต่ 0 ถึง 1 และนิยมใช้สำหรับปัญหาประเภทการจำแนกประเภท Logistic Regression ไม่ต้องการให้ตัวแปรตามและตัวแปรอิสระมีความสัมพันธ์เชิงเส้น เช่นเดียวกับกรณีในการถดถอยเชิงเส้น

อ่าน : แนวคิดโครงการขุดข้อมูล

การถดถอยของสันเขา

Ridge Regression เป็นเทคนิคที่ใช้ในการวิเคราะห์ข้อมูลการถดถอยพหุคูณที่มีปัญหา multicollinearity Multicollinearity คือการมีอยู่ของความสัมพันธ์แบบเกือบเชิงเส้นระหว่างตัวแปรอิสระสองตัวใดๆ

มันเกิดขึ้นเมื่อค่าประมาณกำลังสองน้อยที่สุดมีความเอนเอียงต่ำ แต่มีความแปรปรวนสูง ดังนั้นจึงแตกต่างจากค่าจริงมาก ดังนั้น โดยการเพิ่มระดับอคติให้กับค่าการถดถอยโดยประมาณ ข้อผิดพลาดมาตรฐานจะลดลงอย่างมากโดยใช้การถดถอยสัน

Lasso Regression

A S S O คำว่า "LASSO" ย่อมา จาก L A S O เป็นการถดถอยเชิงเส้นชนิดหนึ่ง ที่ใช้ การหด ตัว ในที่นี้ จุดข้อมูลทั้งหมดจะถูกย่อ (หรือหด) ไปยังจุดศูนย์กลาง หรือที่เรียกว่าค่าเฉลี่ย ขั้นตอนของเชือกนั้นเหมาะสมที่สุดสำหรับแบบจำลองที่เรียบง่ายและเบาบางซึ่งมีพารามิเตอร์ค่อนข้างน้อยกว่า การถดถอยประเภทนี้ยังเหมาะอย่างยิ่งสำหรับแบบจำลองที่มีปัญหาหลายคอลลิเนียร์ (เช่นเดียวกับสันเขา)

รับ ใบรับรองวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก เข้าร่วมโปรแกรม Executive PG, Advanced Certificate Programs หรือ Masters Programs ของเราเพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

บทสรุป

การวิเคราะห์การถดถอยโดยทั่วไปช่วยให้คุณสามารถเปรียบเทียบผลกระทบของตัวแปรคุณลักษณะประเภทต่างๆ ที่วัดได้บนมาตราส่วนที่หลากหลาย เช่น การคาดคะเนราคาบ้านโดยพิจารณาจากพื้นที่ทั้งหมด ท้องที่ อายุ เฟอร์นิเจอร์ ฯลฯ ผลลัพธ์เหล่านี้เป็นประโยชน์อย่างมากต่อนักวิจัยตลาดหรือนักวิเคราะห์ข้อมูลในการกำจัดคุณลักษณะที่ไร้ประโยชน์ใดๆ และประเมินชุดคุณลักษณะที่ดีที่สุดเพื่อสร้างแบบจำลองการคาดการณ์ที่แม่นยำ

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ให้ลองดูประกาศนียบัตร PG ด้านวิทยาศาสตร์ข้อมูลของ IIIT-B และ upGrad ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1- on-1 กับที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

การถดถอยเชิงเส้นคืออะไร?

การถดถอยเชิงเส้นกำหนดความสัมพันธ์ระหว่างตัวแปรเป้าหมายหรือตัวแปรตามและตัวแปรอิสระอย่างน้อยหนึ่งตัว เมื่อเรามีตัวทำนายมากกว่าหนึ่งตัวในสมการ มันจะกลายเป็นการถดถอยพหุคูณ

วิธีน้อยที่สุดกำลังสองถือเป็นวิธีที่ดีที่สุดเพื่อให้ได้เส้นที่พอดีที่สุด เนื่องจากวิธีนี้จะลดผลรวมของกำลังสองของการเบี่ยงเบนจากจุดข้อมูลแต่ละจุดไปยังเส้นถดถอย

เทคนิคการถดถอยคืออะไรและเหตุใดจึงจำเป็น

เป็นเทคนิคในการประมาณค่าหรือทำนายความสัมพันธ์ระหว่างตัวแปร พบความสัมพันธ์ระหว่างสองตัวแปร ตัวแปรหนึ่งคือเป้าหมาย และอีกตัวแปรหนึ่งคือตัวแปรทำนาย (เรียกอีกอย่างว่าตัวแปร x และ y)

สามารถใช้เทคนิคต่างๆ เช่น เชิงเส้น ลอจิสติก สเต็ปไวด์ พหุนาม บ่วงบาศ และสันเขา เพื่อระบุความสัมพันธ์นี้ได้ สิ่งนี้ทำเพื่อสร้างการคาดการณ์โดยใช้การรวบรวมข้อมูลและการพล็อตกราฟระหว่างกัน

เทคนิคการถดถอยเชิงเส้นแตกต่างจากเทคนิคการถดถอยโลจิสติกอย่างไร

ความแตกต่างระหว่างเทคนิคการถดถอยทั้งสองนี้อยู่ในประเภทของตัวแปรตาม ถ้าตัวแปรตามเป็นแบบต่อเนื่อง ก็จะใช้การถดถอยเชิงเส้น ในขณะที่ถ้าตัวแปรตามมีการจัดหมวดหมู่ ก็จะใช้การถดถอยโลจิสติก

ตามชื่อที่แนะนำ มีการระบุเส้นตรงหรือเส้นตรงในเทคนิคเชิงเส้น ในขณะที่ในเทคนิคลอจิสติกส์ S-curve ถูกระบุว่าเป็นตัวแปรอิสระเป็นพหุนาม ผลลัพธ์ในกรณีของเส้นตรงมีความต่อเนื่อง ในขณะที่ในกรณีของเทคนิคลอจิสติกส์ ผลลัพธ์สามารถอยู่ในหมวดหมู่เช่น จริง หรือ เท็จ 0 หรือ 1 เป็นต้น