บทนำสู่อัลกอริทึมการจำแนกประเภท: แนวคิดและประเภทต่างๆ

เผยแพร่แล้ว: 2020-04-13

อัลกอริทึมการจำแนกประเภทช่วยให้คุณแบ่งข้อมูลออกเป็นคลาสต่างๆ เช่นเดียวกับเมื่อคุณต้องการจัดเรียงสิ่งต่าง ๆ ขณะบรรจุ อัลกอริธึมการจำแนกประเภทจะช่วยคุณในการจัดประเภทข้อมูล ในบทความนี้ เราจะมาดูกันว่าอัลกอริธึมการจำแนกประเภทคืออะไร ประเภทของอัลกอริธึมการจำแนกประเภท แนวคิดพื้นฐานบางประการของหัวข้อนี้ และวิธีการทำงาน

สารบัญ

การจำแนกประเภทหมายถึงอะไร
แนวคิดพื้นฐานของการจำแนกประเภท
- คุณสมบัติ
- ลักษณนาม
- โมเดลการจำแนกประเภท
- การจำแนกหลายฉลาก
- การจำแนกหลายชั้น
- การจำแนกไบนารี
ประเภทของอัลกอริทึมการจำแนกประเภท
- K-เพื่อนบ้านที่ใกล้ที่สุด
- ต้นไม้ตัดสินใจ
- การถดถอยโลจิสติก
- รองรับ Vector Machine
สรุปความคิด

การจำแนกประเภทหมายถึงอะไร

ในการทำนายคลาสเป้าหมาย เมื่อเราใช้ชุดข้อมูลการฝึกเพื่อรับเงื่อนไขขอบเขต เราเรียกการจัดประเภทกระบวนการนี้ มีคลาสเป้าหมายหลายประเภทที่คุณสามารถบรรลุได้ ตัวอย่างเช่น สมมติว่าคุณต้องการคาดการณ์ว่าลูกค้าของคุณจะซื้อสินค้าใดผลิตภัณฑ์หนึ่งหรือไม่ตามข้อมูลลูกค้าที่คุณมี ในกรณีนี้ คลาสเป้าหมายจะเป็น 'ใช่' หรือ 'ไม่ใช่'

ในทางกลับกัน คุณอาจต้องการจำแนกผักตามน้ำหนัก ขนาด หรือสี ในสถานการณ์สมมตินี้ คลาสเป้าหมายที่พร้อมใช้งานอาจเป็นผักโขม มะเขือเทศ หัวหอม มันฝรั่ง และกะหล่ำปลี คุณอาจทำการจำแนกเพศได้เช่นกัน โดยที่ชั้นเรียนเป้าหมายจะเป็นเพศหญิงและชาย

มาทำความเข้าใจกันเล็กน้อยว่าอัลกอริธึมการจำแนกประเภททำงานอย่างไรโดยพิจารณาจากตัวอย่างที่สาม เราสามารถรักษาความยาวของผมไว้เป็นพารามิเตอร์คุณลักษณะ แม้ว่าจะเป็นเพียงตัวอย่างเท่านั้น เราสามารถฝึกแบบจำลองของเราโดยใช้อัลกอริธึมการจำแนกประเภท และปล่อยให้มันกำหนดเงื่อนไขขอบเขตเพื่อแยกความแตกต่างระหว่างเพศหญิงและเพศชายผ่านพารามิเตอร์คุณลักษณะที่กำหนด เช่น ความยาวของผม

แนวคิดพื้นฐานของการจำแนกประเภท

ก่อนที่เราจะเริ่มพูดถึงอัลกอริธึมการจัดหมวดหมู่เพิ่มเติม คุณต้องคุ้นเคยกับคำจำกัดความหลายๆ ประการ ด้วยวิธีนี้ คุณจะสามารถหลีกเลี่ยงความสับสนได้ในภายหลัง:

คุณสมบัติ

เป็นคุณสมบัติที่วัดได้เฉพาะตัวของปรากฏการณ์หนึ่งๆ ที่เราสังเกตเห็นในแต่ละครั้ง

ลักษณนาม

ลักษณนามคืออัลกอริธึมที่แมปข้อมูลอินพุตของโมเดลกับหมวดหมู่เฉพาะ

โมเดลการจำแนกประเภท

โมเดลการจำแนกประเภทต้องสรุปค่าอินพุตที่เราให้กับโมเดลระหว่างการฝึก โมเดลเหล่านี้คาดการณ์หมวดหมู่ (ป้ายกำกับคลาส) สำหรับข้อมูลใหม่ที่เราจัดเตรียมให้กับพวกเขา

การจำแนกหลายฉลาก

การจำแนกประเภทหลายป้ายกำกับคือเมื่อเราจับคู่แต่ละตัวอย่างกับชุดป้ายกำกับเป้าหมายของหลายคลาส ตัวอย่างเช่น กระเป๋านักเรียนสามารถมีหนังสือ กล่องอาหารกลางวัน และปากกาได้ในเวลาเดียวกัน

การจำแนกหลายชั้น

การจำแนกประเภทหลายคลาสคือเมื่อเรากำหนดทุกตัวอย่างให้กับป้ายกำกับเป้าหมายเดียวเท่านั้น มันเกิดขึ้นเมื่อเรามีมากกว่าสองชั้นเรียน ตัวอย่างเช่น รถสามารถเคลื่อนที่หรือหยุดนิ่งได้ แต่ไม่ใช่ทั้งสองอย่างพร้อมกัน

การจำแนกไบนารี

การจำแนกไบนารีคือเมื่อเรามีเพียงสองคลาสที่เป็นไปได้ ตัวอย่างเช่น เพศของบุคคลอาจเป็นชายหรือหญิง

ประเภทของอัลกอริทึมการจำแนกประเภท

อัลกอริธึมการจำแนกประเภทมีดังต่อไปนี้:

การประมาณค่าเคอร์เนล

(K-เพื่อนบ้านที่ใกล้ที่สุด)

ลักษณนามเชิงเส้น

(การถดถอยโลจิสติก การเลือกปฏิบัติเชิงเส้นของฟิชเชอร์ และตัวแยกประเภท Naive Bayes)

ลักษณนามกำลังสอง
โครงข่ายประสาทเทียม
การเรียนรู้การหาปริมาณเวกเตอร์
รองรับ Vector Machines

(กำลังสองน้อยที่สุดรองรับเครื่องเวกเตอร์)

มาพูดถึงอัลกอริธึมการจำแนกประเภทที่สำคัญบางประเภทกัน:

เรียนรู้เพิ่มเติม: ประเภทของอัลกอริธึมการเรียนรู้ของเครื่องพร้อมตัวอย่างกรณีใช้งาน

K-เพื่อนบ้านที่ใกล้ที่สุด

เพื่อนบ้านที่ใกล้ที่สุด K หรือที่เรียกว่า KNN เป็นอัลกอริธึมที่เป็นที่นิยมในการแก้ปัญหาการถดถอยและการจำแนกประเภท แยกประเภทคดีใหม่ตามคะแนนโหวตของ k-neighbours เรากำหนดเพื่อนบ้านที่ใกล้ที่สุด k โดยใช้ฟังก์ชันระยะทาง ฟังก์ชันระยะทางที่ได้รับความนิยมมากที่สุดคือแบบยุคลิด แต่มีตัวเลือกอื่นด้วย เช่น แมนฮัตตันและแฮมมิง

เพื่อทำความเข้าใจ KNN คุณสามารถดูตัวอย่างในชีวิตจริงได้ สมมติว่าคุณต้องการผูกมิตรกับคนที่คุณมีข้อมูลไม่มาก ในการทำความรู้จักพวกเขาให้ดียิ่งขึ้น ก่อนอื่นคุณต้องคุยกับเพื่อนและเพื่อนร่วมงานเพื่อจะได้รู้ว่าพวกเขาเป็นอย่างไร นี่คือวิธีการทำงานของอัลกอริทึม KNN

ในขณะที่ใช้อัลกอริธึมเพื่อนบ้านที่ใกล้ที่สุด k ตรวจสอบให้แน่ใจว่าคุณทำให้ตัวแปรเป็นปกติเนื่องจากตัวแปรช่วงที่สูงกว่าสามารถพัฒนาอคติได้ นอกจากนี้อัลกอริธึม KNN นั้นค่อนข้างแพงในเชิงคำนวณ

ต้นไม้ตัดสินใจ

ต้นไม้การตัดสินใจช่วยให้คุณคาดการณ์ผลลัพธ์ที่เป็นไปได้ตามตัวเลือกต่างๆ เป็นอัลกอริธึมการเรียนรู้ภายใต้การดูแลและใช้คุณสมบัติต่างๆ กับตัวแปรตามแบบต่อเนื่องและตามหมวดหมู่

ตัวอย่างเช่น สมมติว่าคุณต้องการออกไปซื้อผลไม้ให้ตัวเอง แต่คุณสังเกตว่าอากาศมีเมฆมาก ตอนนี้ คุณมีทางเลือกสองทาง คุณอาจจะไป หรืออาจจะไม่ ถ้าไปฝนอาจจะต้องกลับมือเปล่า ในทางกลับกัน ถ้าฝนไม่ตก คุณสามารถซื้อผลไม้ที่คุณต้องการซื้อได้ มันเป็นตัวอย่างง่ายๆ ที่มีตัวแปรหลายตัว แต่คุณคงเข้าใจแล้ว

อ่านเพิ่มเติม: โครงสร้างการตัดสินใจใน R

การถดถอยโลจิสติก

การถดถอยโลจิสติกไม่ใช่อัลกอริทึมการถดถอย การถดถอยโลจิสติกจะประมาณค่าที่ไม่ต่อเนื่องตามชุดของตัวแปรอิสระ กล่าวอีกนัยหนึ่ง มันทำนายโอกาสของเหตุการณ์โดยใช้ฟังก์ชัน logit นั่นเป็นสาเหตุว่าทำไมมันถึงมีชื่อของการถดถอย logit

เนื่องจากการถดถอยโลจิสติกได้รับการออกแบบมาสำหรับการจัดประเภท จึงเป็นตัวเลือกยอดนิยมในหมู่ผู้เชี่ยวชาญ นอกจากนี้ยังเป็นอัลกอริธึมที่เหมาะสมที่สุดในการทำความเข้าใจอิทธิพลของตัวแปรอิสระต่างๆ ที่มีต่อผลลัพธ์ที่เป็นไปได้ ข้อเสียของมันคือใช้งานได้กับตัวแปรไบนารีที่คาดเดาได้เท่านั้นและถือว่าข้อมูลไม่มีค่าที่ขาดหายไป

รองรับ Vector Machine

ในเครื่องสนับสนุนเวกเตอร์ ค่าของทุกจุดสนใจคือค่าของพิกัดเฉพาะ และทุกรายการเป็นจุดในปริภูมิ n ในที่นี้ 'n' หมายถึงจำนวนคุณสมบัติที่คุณมี

สมมุติว่าคุณมีคุณสมบัติสองอย่างคือ ความยาวผม และส่วนสูง ในกรณีนี้ อันดับแรก เราจะพล็อตตัวแปรเหล่านี้ในพื้นที่ 2 มิติ และทุกจุดมีสองพิกัด เราเรียกพิกัดเหล่านี้ว่า Support Vectors; นั่นคือเหตุผลที่อัลกอริทึมนี้เรียกว่า Support Vector Machine

หลังจากที่เราพลอตจุดเหล่านั้นแล้ว เราจะพบเส้นที่แบ่งข้อมูลออกเป็นสองกลุ่มที่จำแนกไว้อย่างชัดเจน บรรทัดนี้เป็นตัวแยกประเภท และเราจะสร้างคลาสตามด้านที่ข้อมูลการทดสอบของเราอยู่ในผลลัพธ์สุดท้าย

สรุปความคิด

ในบล็อกนี้ เราได้พยายามอธิบายอัลกอริทึมการจัดหมวดหมู่อย่างครอบคลุมที่สุด หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อนี้ เราขอแนะนำให้คุณไปที่บล็อกของเรา ซึ่งเต็มไปด้วยบทความอันทรงคุณค่าประเภทนี้

คุณยังสามารถไปที่แคตตาล็อกหลักสูตรการเรียนรู้ของเครื่องเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับหัวข้อนี้ เรามั่นใจว่าคุณจะพบสิ่งที่มีประโยชน์

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

เตรียมความพร้อมสู่อาชีพแห่งอนาคต

PG DIPLOMA ในการเรียนรู้ของเครื่องและปัญญาประดิษฐ์

เรียนรู้เพิ่มเติม @ UPGRAD