การถดถอยกับการจำแนกประเภทในการเรียนรู้ของเครื่อง: ความแตกต่างระหว่างการถดถอยและการจำแนกประเภท

เผยแพร่แล้ว: 2020-11-12

สารบัญ

บทนำ

ในการแก้ปัญหาวิทยาศาสตร์ข้อมูล การมีแนวทางที่ถูกต้องมีความสำคัญอย่างยิ่ง และมักจะหมายถึงความแตกต่างระหว่างการสับสนกับการคิดวิธีแก้ปัญหาที่ถูกต้อง ในช่วงเริ่มต้น นักวิทยาศาสตร์ด้านข้อมูลมักจะสับสนระหว่างสองสิ่งนี้ โดยไม่สามารถทราบรายละเอียดทางเทคนิคเล็กๆ น้อยๆ ที่มีความสำคัญต่อการโจมตีปัญหาด้วยวิธีการที่ถูกต้อง

แม้แต่นักวิทยาศาสตร์ด้านข้อมูลที่มีประสบการณ์และมีประสบการณ์ ความแตกต่างก็สามารถทำให้เกิดความสับสนได้ง่าย และทำให้การใช้แนวทางที่ถูกต้องมีความท้าทาย ในวาทกรรมนี้ เราจะเจาะลึกถึงความแตกต่างและความคล้ายคลึงกันด้วยอัลกอริธึมวิทยาศาสตร์ข้อมูลที่สำคัญสองประการ – การจำแนกและการถดถอย

แนวทางทั้งสองนี้ควรเป็นเครื่องมือสำคัญในคลังแสงของนักวิทยาศาสตร์ข้อมูลในการแก้ปัญหาทางธุรกิจ ดังนั้น ความเข้าใจที่สำคัญจึงมีความสำคัญต่อการเลือกโมเดลที่เหมาะสม ปรับแต่งให้เหมาะสม และปรับใช้โซลูชันที่เหมาะสมซึ่งจะช่วยยกระดับธุรกิจของคุณ

อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง

การถดถอยกับการจำแนกประเภท

ประการแรก ความคล้ายคลึงที่สำคัญ – ทั้งการถดถอยและการจำแนกประเภทถูกจัดประเภทภายใต้แนวทางการเรียนรู้ของเครื่องภายใต้การดูแล แนวทางการเรียนรู้ของเครื่องภายใต้การดูแลคืออะไร เป็นชุดของอัลกอริธึมการเรียนรู้ของเครื่องที่ฝึกโมเดลโดยใช้ชุดข้อมูลในโลกแห่งความเป็นจริง (เรียกว่าชุดข้อมูลการฝึกอบรม) เพื่อคาดการณ์

ข้อมูลที่ใช้ในการฝึกอบรมโมเดลจะต้องมีการติดฉลากและทำความสะอาดอย่างดี ตัวแบบจะเรียนรู้จากข้อมูลการฝึกอบรมถึงความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรทำนาย ตรงกันข้ามกับแนวทางการเรียนรู้ของเครื่องที่ไม่มีการควบคุม ซึ่งจะขอให้โมเดลระบุรูปแบบภายในข้อมูลทั้งหมดด้วยตัวมันเอง ดังนั้น ค้นหาฟังก์ชันการแมปโดยการตรวจสอบรูปแบบที่มีอยู่ในชุดข้อมูล

แนวทางการเรียนรู้ของเครื่องภายใต้การดูแลจะพยายามแก้ปัญหาฟังก์ชันการแมป y = f(x) โดยที่ x หมายถึงตัวแปรอินพุต และ y คือฟังก์ชันการแมป การแก้ไขฟังก์ชันการทำแผนที่ทำให้สามารถถ่ายโอนไปยังชุดข้อมูลในโลกแห่งความเป็นจริงได้อย่างรวดเร็วและสะดวก

ทั้งฟังก์ชันการจำแนกและการถดถอยสามารถทำได้ เช่นเดียวกับแนวทางแมชชีนเลิร์นนิงภายใต้การดูแลอื่นๆ แต่ความแตกต่างที่สำคัญและวิธีการถดถอยคือในขณะที่ในการถดถอย ตัวแปรเอาต์พุต 'y' เป็นตัวเลขและต่อเนื่อง (อาจเป็นค่าจำนวนเต็มหรือค่าทศนิยม) ในอัลกอริธึมการจำแนกประเภท ตัวแปรเอาต์พุต 'y' นั้นไม่ต่อเนื่องและ เด็ดขาด

ดังนั้น หากคุณกำลังคาดการณ์ตัวแปรต่างๆ เช่น เงินเดือน อายุขัย ความน่าจะเป็นในการเลิกรา ตัวแปรเหล่านี้จะเป็นตัวเลขและต่อเนื่อง

ตัวอย่างเช่น สมมติว่าสถาบันการเงินมีความสนใจในการจัดทำประวัติผู้ขอสินเชื่อเพื่อวัดความเป็นไปได้ที่สถาบันการเงินจะผิดนัด นักวิทยาศาสตร์ข้อมูลสามารถแก้ไขปัญหาได้สองวิธีหลัก - สามารถกำหนดความน่าจะเป็น (ซึ่งจะเป็นช่วงของตัวเลขทศนิยมต่อเนื่องระหว่าง 0 ถึง 1) ให้กับผู้ขอสินเชื่อแต่ละราย หรือเพียงแค่ให้ชุดของเอาต์พุตไบนารี สอดคล้องกับ PASS/ FAIL

ทั้งสองวิธีจะใช้ตัวแปรอินพุตชุดเดียวกัน เช่น ประวัติเครดิตของผู้สมัคร ข้อมูลเงินเดือน ข้อมูลประชากร อายุ ภาวะเศรษฐกิจมหภาค เป็นต้น แต่ความแตกต่างระหว่างสองวิธีคือในขณะที่วิธีเดิมให้คะแนนผู้สมัครแต่ละคน ซึ่งอาจเป็นประโยชน์ ทำการคำนวณเชิงสัมพัทธภาพ เช่น มีความเป็นไปได้สูงที่บุคคลหนึ่งจะเทียบกับอีกบุคคลหนึ่ง

เอาต์พุตยังสามารถใช้สำหรับการวิเคราะห์อื่นๆ อย่างไรก็ตาม ในกรณีหลัง อัลกอริทึมจะจำแนกชุดข้อมูลทั้งหมดของแต่ละโปรไฟล์เป็น ใช่ หรือ ไม่ใช่ ซึ่งสามารถใช้เพื่อตัดสินว่าการให้เครดิตนั้นปลอดภัยหรือไม่ โปรดทราบว่าทั้งคลาสใช่และไม่ใช่สามารถมีความแตกต่างอย่างมากภายในคลาสย่อย

แต่ที่นี่ด้วยวิธีการจัดหมวดหมู่ เราไม่สนใจที่จะหาความผันแปรภายในแต่ละกลุ่มย่อย การจัดประเภทสามารถใช้เพื่อวัตถุประสงค์อื่นได้ เช่น เพื่อจำแนกว่าอีเมลขาเข้าเป็นสแปมหรือไม่เป็นสแปม

ในทางกลับกัน การพยากรณ์อากาศ (สภาพอากาศสามารถรับค่าต่อเนื่องได้หลายช่วง) มักจะต้องใช้วิธีการถดถอย หากเราสนใจเพียงการคาดการณ์ว่าฝนจะตกหรือไม่ ก็อาจใส่ชุดข้อมูลสภาพอากาศเดียวกันลงในระบบการจัดหมวดหมู่ได้เหมาะสมกว่า ดังที่เราเห็น กรณีการใช้งานจะเป็นตัวกำหนดว่าอัลกอริธึมใดจะเหมาะกับการใช้งานมากกว่า

อัลกอริธึมการถดถอยประกอบด้วยการถดถอยเชิงเส้น การถดถอยหลายตัวแปร โมเดลเวกเตอร์สนับสนุน และแผนผังการถดถอย และอื่นๆ วิธีการจำแนกประเภทใช้แผนผังการตัดสินใจ, Naive Bayes, Logistic Regression และอื่นๆ

เมื่อเข้าใจความแตกต่างระหว่างวิธีการและอัลกอริทึมเหล่านี้ คุณจะสามารถเลือกและใช้แนวทางที่ถูกต้องกับกรณีการใช้งานเฉพาะธุรกิจของคุณได้ดีขึ้น ซึ่งจะช่วยให้คุณได้รับโซลูชันที่ถูกต้องอย่างรวดเร็ว

ประเภทอัลกอริทึมการจำแนกและการถดถอย

ให้เราลงลึกและทำความเข้าใจอัลกอริทึมแต่ละประเภทที่ใช้ในการถดถอยและการจัดหมวดหมู่

การถดถอยเชิงเส้น – ในการถดถอยเชิงเส้น ความสัมพันธ์ระหว่างตัวแปรสองตัวถูกประมาณโดยการพล็อตเส้นตรงที่พอดีที่สุด จะมีการวัดอื่นๆ ที่จำเป็นเพื่อวัดความแข็งแรงของพล็อตเส้นที่พอดีที่สุดที่วาดไว้ เช่น ความแข็งแรงของความพอดี ความแปรปรวน ส่วนเบี่ยงเบนมาตรฐาน ค่า r-squared และอื่นๆ เรียนรู้เพิ่มเติมเกี่ยวกับแบบจำลองการถดถอยในการเรียนรู้ของเครื่อง

การถดถอยพหุนาม – ในแบบจำลองการถดถอยพหุนาม ความสัมพันธ์จะถูกวัดระหว่างตัวแปรอินพุต 'หลายตัว' กับตัวทำนายหรือตัวแปร 'เอาต์พุต' เรียนรู้เพิ่มเติมเกี่ยวกับตัวแบบการถดถอย

อัลกอริธึมแผนผัง การตัดสินใจ – ในอัลกอริธึมแผนผังการตัดสินใจ ชุดข้อมูลจะถูกจัดประเภทโดยใช้แผนผังการตัดสินใจ โดยที่แต่ละโหนดของทรีเป็นกรณีทดสอบ และทุกสาขาที่เกิดขึ้นที่แต่ละโหนดของทรีจะสอดคล้องกับค่าที่เป็นไปได้ ของแอตทริบิวต์

อ่าน: วิธีสร้างโครงสร้างการตัดสินใจที่สมบูรณ์แบบ

Random Forest Algorithm – Random Forest ดังที่ชื่อแนะนำ สร้างขึ้นโดยการเพิ่มอัลกอริธึมแผนผังการตัดสินใจหลายชุด จากนั้น โมเดลจะรวมเอาท์พุตจากแผนผังการตัดสินใจต่างๆ และมากับการคาดการณ์ขั้นสุดท้าย ซึ่งเกิดขึ้นจากการลงคะแนนเสียงข้างมากของแผนผังการตัดสินใจแต่ละรายการ

ผลลัพธ์สุดท้ายที่กำหนดโดยแผนผังการตัดสินใจมีความแม่นยำมากกว่าผลลัพธ์ที่ได้จากแผนผังการตัดสินใจแต่ละรายการ 'ป่าสุ่มมักจะประสบปัญหา overfitting แต่สามารถปรับได้ด้วยการตรวจสอบข้ามและวิธีการอื่น ๆ

เพื่อนบ้านที่ใกล้ที่สุด K – เพื่อนบ้านที่ใกล้ที่สุดของ K เป็นอัลกอริทึมการจำแนกประเภทที่มีประสิทธิภาพซึ่งทำงานบนหลักการที่ว่าสิ่งที่คล้ายกันยังคงอยู่ใกล้กัน เมื่อตัวแปรใหม่ถูกใส่ลงในอัลกอริธึมการทำนาย ตัวแปรจะพยายามกำหนดให้กับกลุ่มตามความใกล้ชิดกับชุดข้อมูล เรียนรู้เพิ่มเติมเกี่ยวกับ KNN

บทสรุป

ในฐานะนักวิทยาศาสตร์ข้อมูล คุณต้องมีความเข้าใจพื้นฐานและจำเป็นของวิธีการจำแนกประเภทและการถดถอยที่แตกต่างกัน เทคนิคที่เกี่ยวข้องจะช่วยคุณในฐานะนักวิทยาศาสตร์ข้อมูลเพื่อใช้ชุดเครื่องมือที่เหมาะสม เพื่อสร้างโซลูชันที่เหมาะสมซึ่งจะเป็นประโยชน์ ธุรกิจของคุณ.

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วย AI

PG DIPLOMA ในการเรียนรู้ของเครื่องและปัญญาประดิษฐ์

เรียนรู้เพิ่มเติม