อัลกอริธึมการจำแนกประเภท 5 ประเภทในการเรียนรู้ของเครื่อง [2022]

เผยแพร่แล้ว: 2021-01-02

สารบัญ

บทนำ
- 1. การถดถอยโลจิสติก
- 2. K Nearest Neighbor
- 3. ต้นไม้แห่งการตัดสินใจ
- 4. ป่าสุ่ม
- 5. รองรับเครื่องเวกเตอร์
บทสรุป
จุดประสงค์หลักที่อยู่เบื้องหลังการใช้การถดถอยโลจิสติกคืออะไร?
SVM แตกต่างจากการถดถอยโลจิสติกอย่างไร
ต้นไม้การถดถอยเป็นต้นไม้การตัดสินใจประเภทหนึ่งหรือไม่?

บทนำ

แมชชีนเลิร์นนิงเป็นหนึ่งในหัวข้อที่สำคัญที่สุดในปัญญาประดิษฐ์ นอกจากนี้ยังแบ่งออกเป็นการเรียนรู้ภายใต้การดูแลและไม่ได้ดูแลซึ่งอาจเกี่ยวข้องกับการวิเคราะห์ข้อมูลที่มีป้ายกำกับและไม่ได้ติดป้ายกำกับหรือการทำนายข้อมูล ใน Supervised Learning เรามีปัญหาทางธุรกิจอีก 2 ประเภทที่เรียกว่า Regression and Classification

การจัดประเภทเป็นอัลกอริธึมการเรียนรู้ของเครื่องที่เราได้รับข้อมูลที่ติดป้ายกำกับเป็นอินพุต และเราจำเป็นต้องคาดการณ์ผลลัพธ์ในชั้นเรียน หากมีสองคลาสก็จะเรียกว่า Binary Classification หากมีมากกว่า 2 คลาส เรียกว่า Multi Classification ในสถานการณ์จริง เรามักจะเห็นการจำแนกประเภททั้งสองประเภท

ในบทความนี้เราจะตรวจสอบอัลกอริธึมการจำแนกประเภทสองสามประเภทพร้อมกับข้อดีและข้อเสีย มีอัลกอริธึมการจัดหมวดหมู่มากมาย แต่ให้เรามุ่งเน้นไปที่ 5 อัลกอริธึมด้านล่าง:

การถดถอยโลจิสติก
K Nearest Neighbor
ต้นไม้แห่งการตัดสินใจ
ป่าสุ่ม
รองรับเวกเตอร์เครื่อง

1. การถดถอยโลจิสติก

แม้ว่าชื่อจะบ่งบอกถึงการถดถอย แต่เป็นอัลกอริธึมการจำแนกประเภท Logistic Regression เป็นวิธีการทางสถิติสำหรับการจำแนกข้อมูลซึ่งมีตัวแปรหรือคุณลักษณะอิสระตั้งแต่หนึ่งตัวขึ้นไปที่กำหนดผลลัพธ์ซึ่งวัดด้วยตัวแปร (TARGET) ที่มีสองคลาสขึ้นไป เป้าหมายหลักคือการหาแบบจำลองที่เหมาะสมที่สุดเพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรเป้าหมายและตัวแปรอิสระ

ข้อดี

1) ง่ายต่อการนำไปใช้ ตีความ และมีประสิทธิภาพในการฝึกอบรม เนื่องจากไม่มีการตั้งสมมติฐานใดๆ และรวดเร็วในการจำแนกประเภท

2) สามารถใช้สำหรับการจำแนกหลายประเภท

3) มีแนวโน้มน้อยกว่าที่จะใส่มากเกินไป แต่จะใส่มากเกินไปในชุดข้อมูลที่มีมิติสูง

ข้อเสีย

1) เกินขนาดเมื่อการสังเกตน้อยกว่าลักษณะเด่น

2) ใช้งานได้กับฟังก์ชันแยกเท่านั้น

3) ปัญหาไม่เชิงเส้นไม่สามารถแก้ไขได้

4) ยากต่อการเรียนรู้รูปแบบที่ซับซ้อนและโดยปกติโครงข่ายประสาทเทียมมีประสิทธิภาพดีกว่าพวกมัน

2. K Nearest Neighbor

อัลกอริธึม K-Nearest Neighbors (KNN) ใช้เทคนิค 'คุณลักษณะที่คล้ายคลึงกัน' หรือ 'เพื่อนบ้านที่ใกล้ที่สุด' เพื่อทำนายคลัสเตอร์ที่มีจุดข้อมูลใหม่ ด้านล่างนี้คือขั้นตอนที่เราเข้าใจการทำงานของอัลกอริธึมนี้ได้ดีขึ้น

ขั้นตอนที่ 1 - สำหรับการนำอัลกอริธึมไปใช้ในการเรียนรู้ของเครื่อง เราจำเป็นต้องมีชุดข้อมูลที่สะอาดพร้อมสำหรับการสร้างแบบจำลอง สมมติว่าเรามีชุดข้อมูลที่ล้างแล้วซึ่งแบ่งออกเป็นชุดข้อมูลการฝึกอบรมและการทดสอบ

ขั้นตอนที่ 2 - เนื่องจากเรามีชุดข้อมูลพร้อมแล้ว เราจำเป็นต้องเลือกค่าของ K (จำนวนเต็ม) ซึ่งจะบอกเราว่าเราต้องคำนึงถึงจุดข้อมูลที่ใกล้ที่สุดกี่จุดเพื่อนำอัลกอริทึมไปใช้ เราจะได้ทราบวิธีการกำหนดค่า k ในขั้นตอนหลังของบทความ

ขั้นตอนที่ 3 - ขั้นตอนนี้เป็นการวนซ้ำและจำเป็นต้องใช้กับจุดข้อมูลแต่ละจุดในชุดข้อมูล

คำนวณระยะห่างระหว่างข้อมูลการทดสอบกับข้อมูลการฝึกแต่ละแถวโดยใช้ตัววัดระยะทางใดๆ
ระยะทางแบบยุคลิด
ระยะทางแมนฮัตตัน
Minkowski ระยะทาง
ระยะทางแฮมมิ่ง

นักวิทยาศาสตร์ด้านข้อมูลหลายคนมักจะใช้ระยะทางแบบยุคลิด แต่เราสามารถทราบถึงความสำคัญของแต่ละระยะได้ในระยะหลังของบทความนี้

เราจำเป็นต้องจัดเรียงข้อมูลตามการวัดระยะทางที่เราใช้ในขั้นตอนข้างต้น

เลือกแถว K บนสุดในข้อมูลที่จัดเรียงที่แปลงแล้ว

จากนั้นจะกำหนดคลาสให้กับจุดทดสอบตามคลาสที่บ่อยที่สุดของแถวเหล่านี้

ขั้นตอนที่ 4 – สิ้นสุด

ข้อดี

ใช้งานง่าย เข้าใจและตีความ
เวลาคำนวณอย่างรวดเร็ว
ไม่มีสมมติฐานเกี่ยวกับข้อมูล
การทำนายที่แม่นยำสูง
อเนกประสงค์ – ใช้ได้กับทั้งปัญหาธุรกิจการจำแนกประเภทและการถดถอย
สามารถใช้กับปัญหาหลายชั้นได้เช่นกัน
เรามีพารามิเตอร์ Hyper เพียงตัวเดียวที่จะปรับแต่งที่ขั้นตอนการปรับแต่ง Hyperparameter

ข้อเสีย

การคำนวณมีราคาแพงและต้องใช้หน่วยความจำสูงเนื่องจากอัลกอริธึมเก็บข้อมูลการฝึกอบรมทั้งหมด
อัลกอริทึมจะช้าลงเมื่อตัวแปรเพิ่มขึ้น
มีความละเอียดอ่อนมากต่อคุณลักษณะที่ไม่เกี่ยวข้อง
คำสาปแห่งมิติ
การเลือกค่าที่เหมาะสมที่สุดของ K
ชุดข้อมูลคลาสไม่สมดุลจะทำให้เกิดปัญหา
ค่าที่หายไปในข้อมูลยังทำให้เกิดปัญหา

อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง

3. ต้นไม้แห่งการตัดสินใจ

ต้นไม้การตัดสินใจสามารถใช้ได้ทั้งการจัดประเภทและการถดถอย เนื่องจากสามารถจัดการได้ทั้งข้อมูลตัวเลขและหมวดหมู่ มันแบ่งชุดข้อมูลออกเป็นชุดย่อยหรือโหนดที่เล็กลงและเล็กลงเมื่อต้นไม้ได้รับการพัฒนา แผนผังการตัดสินใจมีเอาต์พุตพร้อมโหนดการตัดสินใจและโหนดปลายสุดที่โหนดการตัดสินใจมีสองสาขาขึ้นไปในขณะที่โหนดปลายสุดแสดงถึงการตัดสินใจ โหนดบนสุดที่สอดคล้องกับตัวทำนายที่ดีที่สุดเรียกว่าโหนดรูท

ข้อดี

เข้าใจง่าย
ง่ายต่อการมองเห็น
การตีความข้อมูลน้อยลง
จัดการทั้งข้อมูลตัวเลขและหมวดหมู่

ข้อเสีย

บางครั้งก็พูดจาไม่ค่อยดีนัก
ไม่เสถียรต่อการเปลี่ยนแปลงข้อมูลอินพุต

4. ป่าสุ่ม

ป่าสุ่มเป็นวิธีการเรียนรู้ทั้งมวลที่สามารถใช้ในการจำแนกประเภทและการถดถอย มันทำงานโดยการสร้างแผนผังการตัดสินใจหลายชุดและให้ผลลัพธ์โดยใช้ค่าเฉลี่ยของแผนผังการตัดสินใจทั้งหมดในการถดถอยหรือการลงคะแนนเสียงส่วนใหญ่ในปัญหาการจำแนกประเภท คุณจะได้รู้จากชื่อตัวเองว่ากลุ่มของต้นไม้ที่เรียกว่าป่า

ข้อดี

สามารถจัดการชุดข้อมูลขนาดใหญ่ได้
จะแสดงผลความสำคัญของตัวแปร
สามารถจัดการกับค่าที่หายไป

ข้อเสีย

เป็นอัลกอริธึมกล่องดำ
การคาดคะเนตามเวลาจริงช้าและอัลกอริธึมที่ซับซ้อน

5. รองรับเครื่องเวกเตอร์

เครื่องเวกเตอร์สนับสนุนคือการแสดงชุดข้อมูลเป็นจุดในช่องว่างที่แยกออกเป็นหมวดหมู่ด้วยช่องว่างหรือเส้นที่ชัดเจนซึ่งอยู่ไกลที่สุด ตอนนี้จุดข้อมูลใหม่จะถูกแมปลงในพื้นที่เดียวกันนั้นและจัดอยู่ในหมวดหมู่โดยพิจารณาจากด้านของเส้นหรือการแยกจากกัน

ข้อดี

ทำงานได้ดีที่สุดในพื้นที่มิติสูง
ใช้ชุดย่อยของจุดข้อมูลการฝึกในฟังก์ชันการตัดสินใจ ซึ่งทำให้เป็นอัลกอริธึมที่มีประสิทธิภาพหน่วยความจำ

ข้อเสีย

จะไม่ให้ค่าประมาณความน่าจะเป็น
สามารถคำนวณค่าประมาณความน่าจะเป็นได้โดยใช้การตรวจสอบความถูกต้อง แต่ใช้เวลานาน

อ่านเพิ่มเติม: อาชีพในการเรียนรู้ของเครื่อง

บทสรุป

ในบทความนี้ เราได้กล่าวถึงอัลกอริธึมการจำแนกประเภท 5 แบบ คำจำกัดความโดยย่อ ข้อดีและข้อเสีย เหล่านี้เป็นเพียงอัลกอริธึมบางส่วนที่เราได้กล่าวถึง แต่มีอัลกอริธึมที่มีค่ามากกว่า เช่น Naive Bayes, Neural Networks, Ordered Logistic Regression ไม่มีใครบอกได้ว่าอัลกอริธึมใดทำงานได้ดีสำหรับปัญหาใด ดังนั้นแนวปฏิบัติที่ดีที่สุดคือลองใช้สองสามวิธีและเลือกรูปแบบสุดท้ายตามเมตริกการประเมิน

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

จุดประสงค์หลักที่อยู่เบื้องหลังการใช้การถดถอยโลจิสติกคืออะไร?

การถดถอยโลจิสติกส่วนใหญ่จะใช้ในความน่าจะเป็นทางสถิติ ใช้สมการถดถอยโลจิสติกเพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระที่มีอยู่ในข้อมูลที่กำหนด ทำได้โดยการประเมินความน่าจะเป็นของเหตุการณ์แต่ละรายการ ตัวแบบการถดถอยโลจิสติกมีความคล้ายคลึงกับตัวแบบการถดถอยเชิงเส้นมาก อย่างไรก็ตาม ควรใช้แบบจำลองนี้โดยที่ตัวแปรตามที่ระบุในข้อมูลเป็นแบบสองขั้ว

SVM แตกต่างจากการถดถอยโลจิสติกอย่างไร

แม้ว่า SVM จะให้ความแม่นยำมากกว่าแบบจำลองการถดถอยโลจิสติก แต่ก็มีความซับซ้อนในการใช้งาน ดังนั้นจึงไม่เป็นมิตรกับผู้ใช้ ในกรณีที่มีข้อมูลจำนวนมาก ไม่แนะนำให้ใช้ SVM แม้ว่า SVM จะใช้เพื่อแก้ปัญหาทั้งการถดถอยและการจำแนกประเภท การถดถอยโลจิสติกจะแก้ปัญหาการจำแนกประเภทได้ดีเท่านั้น ต่างจาก SVM การใส่มากเกินไปเป็นเรื่องปกติเมื่อใช้การถดถอยโลจิสติก นอกจากนี้ การถดถอยโลจิสติกยังเสี่ยงต่อค่าผิดปกติมากกว่าเมื่อเปรียบเทียบกับเวกเตอร์เครื่องสนับสนุน

ต้นไม้การถดถอยเป็นต้นไม้การตัดสินใจประเภทหนึ่งหรือไม่?

ใช่ ต้นไม้การถดถอยนั้นเป็นแผนผังการตัดสินใจที่ใช้สำหรับงานถดถอย ตัวแบบการถดถอยใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระที่เกิดขึ้นจริงโดยการแยกชุดข้อมูลเริ่มต้นที่กำหนด ต้นไม้การถดถอยสามารถใช้ได้เฉพาะเมื่อแผนผังการตัดสินใจประกอบด้วยตัวแปรเป้าหมายต่อเนื่อง