อัลกอริธึมการจำแนกประเภท 5 ประเภทในการเรียนรู้ของเครื่อง [2022]
เผยแพร่แล้ว: 2021-01-02สารบัญ
บทนำ
แมชชีนเลิร์นนิงเป็นหนึ่งในหัวข้อที่สำคัญที่สุดในปัญญาประดิษฐ์ นอกจากนี้ยังแบ่งออกเป็นการเรียนรู้ภายใต้การดูแลและไม่ได้ดูแลซึ่งอาจเกี่ยวข้องกับการวิเคราะห์ข้อมูลที่มีป้ายกำกับและไม่ได้ติดป้ายกำกับหรือการทำนายข้อมูล ใน Supervised Learning เรามีปัญหาทางธุรกิจอีก 2 ประเภทที่เรียกว่า Regression and Classification
การจัดประเภทเป็นอัลกอริธึมการเรียนรู้ของเครื่องที่เราได้รับข้อมูลที่ติดป้ายกำกับเป็นอินพุต และเราจำเป็นต้องคาดการณ์ผลลัพธ์ในชั้นเรียน หากมีสองคลาสก็จะเรียกว่า Binary Classification หากมีมากกว่า 2 คลาส เรียกว่า Multi Classification ในสถานการณ์จริง เรามักจะเห็นการจำแนกประเภททั้งสองประเภท
ในบทความนี้เราจะตรวจสอบอัลกอริธึมการจำแนกประเภทสองสามประเภทพร้อมกับข้อดีและข้อเสีย มีอัลกอริธึมการจัดหมวดหมู่มากมาย แต่ให้เรามุ่งเน้นไปที่ 5 อัลกอริธึมด้านล่าง:
- การถดถอยโลจิสติก
- K Nearest Neighbor
- ต้นไม้แห่งการตัดสินใจ
- ป่าสุ่ม
- รองรับเวกเตอร์เครื่อง
1. การถดถอยโลจิสติก
แม้ว่าชื่อจะบ่งบอกถึงการถดถอย แต่เป็นอัลกอริธึมการจำแนกประเภท Logistic Regression เป็นวิธีการทางสถิติสำหรับการจำแนกข้อมูลซึ่งมีตัวแปรหรือคุณลักษณะอิสระตั้งแต่หนึ่งตัวขึ้นไปที่กำหนดผลลัพธ์ซึ่งวัดด้วยตัวแปร (TARGET) ที่มีสองคลาสขึ้นไป เป้าหมายหลักคือการหาแบบจำลองที่เหมาะสมที่สุดเพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรเป้าหมายและตัวแปรอิสระ
ข้อดี
1) ง่ายต่อการนำไปใช้ ตีความ และมีประสิทธิภาพในการฝึกอบรม เนื่องจากไม่มีการตั้งสมมติฐานใดๆ และรวดเร็วในการจำแนกประเภท

2) สามารถใช้สำหรับการจำแนกหลายประเภท
3) มีแนวโน้มน้อยกว่าที่จะใส่มากเกินไป แต่จะใส่มากเกินไปในชุดข้อมูลที่มีมิติสูง
ข้อเสีย
1) เกินขนาดเมื่อการสังเกตน้อยกว่าลักษณะเด่น
2) ใช้งานได้กับฟังก์ชันแยกเท่านั้น
3) ปัญหาไม่เชิงเส้นไม่สามารถแก้ไขได้
4) ยากต่อการเรียนรู้รูปแบบที่ซับซ้อนและโดยปกติโครงข่ายประสาทเทียมมีประสิทธิภาพดีกว่าพวกมัน
2. K Nearest Neighbor
อัลกอริธึม K-Nearest Neighbors (KNN) ใช้เทคนิค 'คุณลักษณะที่คล้ายคลึงกัน' หรือ 'เพื่อนบ้านที่ใกล้ที่สุด' เพื่อทำนายคลัสเตอร์ที่มีจุดข้อมูลใหม่ ด้านล่างนี้คือขั้นตอนที่เราเข้าใจการทำงานของอัลกอริธึมนี้ได้ดีขึ้น
ขั้นตอนที่ 1 - สำหรับการนำอัลกอริธึมไปใช้ในการเรียนรู้ของเครื่อง เราจำเป็นต้องมีชุดข้อมูลที่สะอาดพร้อมสำหรับการสร้างแบบจำลอง สมมติว่าเรามีชุดข้อมูลที่ล้างแล้วซึ่งแบ่งออกเป็นชุดข้อมูลการฝึกอบรมและการทดสอบ
ขั้นตอนที่ 2 - เนื่องจากเรามีชุดข้อมูลพร้อมแล้ว เราจำเป็นต้องเลือกค่าของ K (จำนวนเต็ม) ซึ่งจะบอกเราว่าเราต้องคำนึงถึงจุดข้อมูลที่ใกล้ที่สุดกี่จุดเพื่อนำอัลกอริทึมไปใช้ เราจะได้ทราบวิธีการกำหนดค่า k ในขั้นตอนหลังของบทความ
ขั้นตอนที่ 3 - ขั้นตอนนี้เป็นการวนซ้ำและจำเป็นต้องใช้กับจุดข้อมูลแต่ละจุดในชุดข้อมูล
- คำนวณระยะห่างระหว่างข้อมูลการทดสอบกับข้อมูลการฝึกแต่ละแถวโดยใช้ตัววัดระยะทางใดๆ
- ระยะทางแบบยุคลิด
- ระยะทางแมนฮัตตัน
- Minkowski ระยะทาง
- ระยะทางแฮมมิ่ง
นักวิทยาศาสตร์ด้านข้อมูลหลายคนมักจะใช้ระยะทางแบบยุคลิด แต่เราสามารถทราบถึงความสำคัญของแต่ละระยะได้ในระยะหลังของบทความนี้
เราจำเป็นต้องจัดเรียงข้อมูลตามการวัดระยะทางที่เราใช้ในขั้นตอนข้างต้น
เลือกแถว K บนสุดในข้อมูลที่จัดเรียงที่แปลงแล้ว
จากนั้นจะกำหนดคลาสให้กับจุดทดสอบตามคลาสที่บ่อยที่สุดของแถวเหล่านี้
ขั้นตอนที่ 4 – สิ้นสุด
ข้อดี
- ใช้งานง่าย เข้าใจและตีความ
- เวลาคำนวณอย่างรวดเร็ว
- ไม่มีสมมติฐานเกี่ยวกับข้อมูล
- การทำนายที่แม่นยำสูง
- อเนกประสงค์ – ใช้ได้กับทั้งปัญหาธุรกิจการจำแนกประเภทและการถดถอย
- สามารถใช้กับปัญหาหลายชั้นได้เช่นกัน
- เรามีพารามิเตอร์ Hyper เพียงตัวเดียวที่จะปรับแต่งที่ขั้นตอนการปรับแต่ง Hyperparameter
ข้อเสีย

- การคำนวณมีราคาแพงและต้องใช้หน่วยความจำสูงเนื่องจากอัลกอริธึมเก็บข้อมูลการฝึกอบรมทั้งหมด
- อัลกอริทึมจะช้าลงเมื่อตัวแปรเพิ่มขึ้น
- มีความละเอียดอ่อนมากต่อคุณลักษณะที่ไม่เกี่ยวข้อง
- คำสาปแห่งมิติ
- การเลือกค่าที่เหมาะสมที่สุดของ K
- ชุดข้อมูลคลาสไม่สมดุลจะทำให้เกิดปัญหา
- ค่าที่หายไปในข้อมูลยังทำให้เกิดปัญหา
อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง
3. ต้นไม้แห่งการตัดสินใจ
ต้นไม้การตัดสินใจสามารถใช้ได้ทั้งการจัดประเภทและการถดถอย เนื่องจากสามารถจัดการได้ทั้งข้อมูลตัวเลขและหมวดหมู่ มันแบ่งชุดข้อมูลออกเป็นชุดย่อยหรือโหนดที่เล็กลงและเล็กลงเมื่อต้นไม้ได้รับการพัฒนา แผนผังการตัดสินใจมีเอาต์พุตพร้อมโหนดการตัดสินใจและโหนดปลายสุดที่โหนดการตัดสินใจมีสองสาขาขึ้นไปในขณะที่โหนดปลายสุดแสดงถึงการตัดสินใจ โหนดบนสุดที่สอดคล้องกับตัวทำนายที่ดีที่สุดเรียกว่าโหนดรูท
ข้อดี
- เข้าใจง่าย
- ง่ายต่อการมองเห็น
- การตีความข้อมูลน้อยลง
- จัดการทั้งข้อมูลตัวเลขและหมวดหมู่
ข้อเสีย
- บางครั้งก็พูดจาไม่ค่อยดีนัก
- ไม่เสถียรต่อการเปลี่ยนแปลงข้อมูลอินพุต
4. ป่าสุ่ม
ป่าสุ่มเป็นวิธีการเรียนรู้ทั้งมวลที่สามารถใช้ในการจำแนกประเภทและการถดถอย มันทำงานโดยการสร้างแผนผังการตัดสินใจหลายชุดและให้ผลลัพธ์โดยใช้ค่าเฉลี่ยของแผนผังการตัดสินใจทั้งหมดในการถดถอยหรือการลงคะแนนเสียงส่วนใหญ่ในปัญหาการจำแนกประเภท คุณจะได้รู้จากชื่อตัวเองว่ากลุ่มของต้นไม้ที่เรียกว่าป่า
ข้อดี
- สามารถจัดการชุดข้อมูลขนาดใหญ่ได้
- จะแสดงผลความสำคัญของตัวแปร
- สามารถจัดการกับค่าที่หายไป
ข้อเสีย
- เป็นอัลกอริธึมกล่องดำ
- การคาดคะเนตามเวลาจริงช้าและอัลกอริธึมที่ซับซ้อน
5. รองรับเครื่องเวกเตอร์
เครื่องเวกเตอร์สนับสนุนคือการแสดงชุดข้อมูลเป็นจุดในช่องว่างที่แยกออกเป็นหมวดหมู่ด้วยช่องว่างหรือเส้นที่ชัดเจนซึ่งอยู่ไกลที่สุด ตอนนี้จุดข้อมูลใหม่จะถูกแมปลงในพื้นที่เดียวกันนั้นและจัดอยู่ในหมวดหมู่โดยพิจารณาจากด้านของเส้นหรือการแยกจากกัน

ข้อดี
- ทำงานได้ดีที่สุดในพื้นที่มิติสูง
- ใช้ชุดย่อยของจุดข้อมูลการฝึกในฟังก์ชันการตัดสินใจ ซึ่งทำให้เป็นอัลกอริธึมที่มีประสิทธิภาพหน่วยความจำ
ข้อเสีย
- จะไม่ให้ค่าประมาณความน่าจะเป็น
- สามารถคำนวณค่าประมาณความน่าจะเป็นได้โดยใช้การตรวจสอบความถูกต้อง แต่ใช้เวลานาน
อ่านเพิ่มเติม: อาชีพในการเรียนรู้ของเครื่อง
บทสรุป
ในบทความนี้ เราได้กล่าวถึงอัลกอริธึมการจำแนกประเภท 5 แบบ คำจำกัดความโดยย่อ ข้อดีและข้อเสีย เหล่านี้เป็นเพียงอัลกอริธึมบางส่วนที่เราได้กล่าวถึง แต่มีอัลกอริธึมที่มีค่ามากกว่า เช่น Naive Bayes, Neural Networks, Ordered Logistic Regression ไม่มีใครบอกได้ว่าอัลกอริธึมใดทำงานได้ดีสำหรับปัญหาใด ดังนั้นแนวปฏิบัติที่ดีที่สุดคือลองใช้สองสามวิธีและเลือกรูปแบบสุดท้ายตามเมตริกการประเมิน
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
จุดประสงค์หลักที่อยู่เบื้องหลังการใช้การถดถอยโลจิสติกคืออะไร?
การถดถอยโลจิสติกส่วนใหญ่จะใช้ในความน่าจะเป็นทางสถิติ ใช้สมการถดถอยโลจิสติกเพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระที่มีอยู่ในข้อมูลที่กำหนด ทำได้โดยการประเมินความน่าจะเป็นของเหตุการณ์แต่ละรายการ ตัวแบบการถดถอยโลจิสติกมีความคล้ายคลึงกับตัวแบบการถดถอยเชิงเส้นมาก อย่างไรก็ตาม ควรใช้แบบจำลองนี้โดยที่ตัวแปรตามที่ระบุในข้อมูลเป็นแบบสองขั้ว
SVM แตกต่างจากการถดถอยโลจิสติกอย่างไร
แม้ว่า SVM จะให้ความแม่นยำมากกว่าแบบจำลองการถดถอยโลจิสติก แต่ก็มีความซับซ้อนในการใช้งาน ดังนั้นจึงไม่เป็นมิตรกับผู้ใช้ ในกรณีที่มีข้อมูลจำนวนมาก ไม่แนะนำให้ใช้ SVM แม้ว่า SVM จะใช้เพื่อแก้ปัญหาทั้งการถดถอยและการจำแนกประเภท การถดถอยโลจิสติกจะแก้ปัญหาการจำแนกประเภทได้ดีเท่านั้น ต่างจาก SVM การใส่มากเกินไปเป็นเรื่องปกติเมื่อใช้การถดถอยโลจิสติก นอกจากนี้ การถดถอยโลจิสติกยังเสี่ยงต่อค่าผิดปกติมากกว่าเมื่อเปรียบเทียบกับเวกเตอร์เครื่องสนับสนุน
ต้นไม้การถดถอยเป็นต้นไม้การตัดสินใจประเภทหนึ่งหรือไม่?
ใช่ ต้นไม้การถดถอยนั้นเป็นแผนผังการตัดสินใจที่ใช้สำหรับงานถดถอย ตัวแบบการถดถอยใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระที่เกิดขึ้นจริงโดยการแยกชุดข้อมูลเริ่มต้นที่กำหนด ต้นไม้การถดถอยสามารถใช้ได้เฉพาะเมื่อแผนผังการตัดสินใจประกอบด้วยตัวแปรเป้าหมายต่อเนื่อง