การจัดกลุ่มและการจำแนกประเภท: ความแตกต่างระหว่างการจัดกลุ่มและการจำแนกประเภท

เผยแพร่แล้ว: 2020-12-01

สารบัญ

บทนำ
การจำแนกประเภท
- ประเภทของอัลกอริธึมการจำแนกประเภท
- แอปพลิเคชั่น
การจัดกลุ่ม
- ประเภทของอัลกอริธึมคลัสเตอร์
- แอปพลิเคชั่น
ความแตกต่างระหว่างการจัดกลุ่มและการจำแนกประเภท
บทสรุป
- วิธีการและการใช้งาน Clustering ต่างกันอย่างไร
- ตัวแยกประเภทและการใช้งานต่างๆ ของ Classification คืออะไร?
- อัลกอริธึมการจำแนกประเภทที่พบบ่อยที่สุดในการเรียนรู้ของเครื่องคืออะไร

บทนำ

อัลกอริธึมการเรียนรู้ของเครื่องโดยทั่วไปจะจัดหมวดหมู่ตามประเภทของตัวแปรเอาต์พุตและประเภทของปัญหาที่ต้องแก้ไข อัลกอริธึมเหล่านี้แบ่งออกเป็นสามประเภทกว้างๆ ได้แก่ การถดถอย การจัดกลุ่ม และการจัดประเภท การถดถอยและการจัดประเภทเป็นประเภทของอัลกอริธึมการเรียนรู้ภายใต้การดูแล ในขณะที่การทำคลัสเตอร์เป็นประเภทของอัลกอริธึมที่ไม่มีผู้ดูแล

เมื่อตัวแปรเอาท์พุตเป็นแบบต่อเนื่อง ก็จะเป็นปัญหาการถดถอย ในขณะที่เมื่อมีค่าที่ไม่ต่อเนื่อง ก็จะเป็นปัญหาการจำแนกประเภท โดยทั่วไปแล้วอัลกอริธึมการทำคลัสเตอร์จะใช้เมื่อเราต้องการสร้างคลัสเตอร์ตามลักษณะของจุดข้อมูล บทความนี้เน้นที่การแนะนำสั้น ๆ เกี่ยวกับการจัดกลุ่ม การจำแนกประเภท และรายการความแตกต่างระหว่างทั้งสอง

ไม่จำเป็นต้องมีประสบการณ์การเข้ารหัส การสนับสนุนด้านอาชีพ 360° PG Diploma in Machine Learning & AI จาก IIIT-B และ upGrad

การจำแนกประเภท

การจัดประเภทเป็นประเภทของอัลกอริธึมการเรียนรู้ของเครื่องภายใต้การดูแล สำหรับอินพุตที่กำหนด อัลกอริธึมการจำแนกประเภทจะช่วยในการทำนายคลาสของตัวแปรเอาต์พุต การจำแนกประเภทสามารถมีได้หลายประเภท เช่น การจำแนกไบนารี การจำแนกหลายคลาส ฯลฯ ขึ้นอยู่กับจำนวนของคลาสในตัวแปรเอาต์พุต

ประเภทของอัลกอริธึมการจำแนกประเภท

Logistic Regression : – เป็นหนึ่งในตัวแบบเชิงเส้นที่สามารถใช้ในการจำแนกประเภทได้ ใช้ฟังก์ชัน sigmoid เพื่อคำนวณความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้น เป็นวิธีที่เหมาะสำหรับการจำแนกตัวแปรไบนารี

K-Nearest Neighbors (kNN) : – ใช้ตัววัดระยะทาง เช่น ระยะทางแบบยุคลิด ระยะทางแมนฮัตตัน เป็นต้น เพื่อคำนวณระยะทางของจุดข้อมูลหนึ่งจุดจากจุดข้อมูลอื่นทุกจุด ในการจำแนกผลลัพธ์ จะใช้คะแนนเสียงข้างมากจากเพื่อนบ้านที่ใกล้ที่สุด k แห่งแต่ละจุดข้อมูล

ต้นไม้แห่งการตัดสินใจ : – เป็นโมเดลที่ไม่เป็นเชิงเส้นที่เอาชนะข้อเสียบางประการของอัลกอริธึมเชิงเส้น เช่น การถดถอยโลจิสติก มันสร้างแบบจำลองการจัดประเภทในรูปแบบของโครงสร้างต้นไม้ที่มีโหนดและใบไม้ อัลกอริธึมนี้เกี่ยวข้องกับคำสั่ง if-else หลายชุด ซึ่งช่วยในการแยกโครงสร้างออกเป็นโครงสร้างที่เล็กลงและให้ผลลัพธ์สุดท้ายในที่สุด สามารถใช้สำหรับการถดถอยเช่นเดียวกับปัญหาการจำแนกประเภท

Random Forest : – เป็นวิธีการเรียนรู้แบบกลุ่มที่เกี่ยวข้องกับแผนภูมิการตัดสินใจหลายแบบเพื่อทำนายผลลัพธ์ของตัวแปรเป้าหมาย ต้นไม้การตัดสินใจแต่ละต้นให้ผลลัพธ์ของตัวเอง ในกรณีของปัญหาการจำแนกประเภท ต้องใช้คะแนนเสียงข้างมากของแผนผังการตัดสินใจหลายชุดเพื่อจัดประเภทผลลัพธ์สุดท้าย ในกรณีของปัญหาการถดถอย จะใช้ค่าเฉลี่ยของค่าที่ทำนายโดยแผนผังการตัดสินใจ

Naive Bayes : – เป็นอัลกอริทึมที่อิงตามทฤษฎีบทของ Bayes จะถือว่าคุณลักษณะเฉพาะใดๆ เป็นอิสระจากการรวมคุณลักษณะอื่นๆ กล่าวคือไม่มีความสัมพันธ์กัน โดยทั่วไปจะไม่ทำงานได้ดีกับข้อมูลที่ซับซ้อนเนื่องจากสมมติฐานนี้ เนื่องจากชุดข้อมูลส่วนใหญ่มีความสัมพันธ์บางอย่างระหว่างคุณลักษณะ

รองรับ Vector Machine : – แสดงถึงจุดข้อมูลในพื้นที่หลายมิติ จากนั้นจุดข้อมูลเหล่านี้จะถูกแยกออกเป็นคลาสต่างๆ โดยใช้ไฮเปอร์เพลน มันวางแผนพื้นที่ n มิติสำหรับจำนวนคุณลักษณะ n ในชุดข้อมูล จากนั้นพยายามสร้างไฮเปอร์เพลนเพื่อแบ่งจุดข้อมูลด้วยระยะขอบสูงสุด

อ่าน: ตัวอย่างทั่วไปของการทำเหมืองข้อมูล

แอปพลิเคชั่น

การตรวจจับสแปมอีเมล
การจดจำใบหน้า.
ระบุว่าลูกค้าจะปั่นหรือไม่
การอนุมัติสินเชื่อธนาคาร

การจัดกลุ่ม

การจัดกลุ่มเป็นประเภทของอัลกอริทึมการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแล ใช้เพื่อจัดกลุ่มจุดข้อมูลที่มีลักษณะเหมือนคลัสเตอร์ ตามหลักการแล้ว จุดข้อมูลในคลัสเตอร์เดียวกันควรแสดงคุณสมบัติที่คล้ายคลึงกัน และจุดในคลัสเตอร์ที่ต่างกันควรมีความแตกต่างกันมากที่สุด

การทำคลัสเตอร์แบ่งออกเป็นสองกลุ่ม - การทำคลัสเตอร์แบบฮาร์ดและการทำคลัสเตอร์แบบซอฟต์ ในการฮาร์ดคลัสเตอร์ จุดข้อมูลถูกกำหนดให้กับคลัสเตอร์หนึ่งเท่านั้น ในขณะที่การทำคลัสเตอร์แบบซอฟต์ จุดข้อมูลจะมีความเป็นไปได้ที่จุดข้อมูลจะอยู่ในแต่ละคลัสเตอร์

ประเภทของอัลกอริธึมคลัสเตอร์

K-Means Clustering : – เริ่มต้นจำนวนที่กำหนดไว้ล่วงหน้าของกลุ่ม k และใช้การวัดระยะทางเพื่อคำนวณระยะทางของแต่ละจุดข้อมูลจากจุดศูนย์กลางของแต่ละคลัสเตอร์ มันกำหนดจุดข้อมูลให้เป็นหนึ่งในกลุ่ม k ตามระยะทาง

Agglomerative Hierarchical Clustering (Bottom-Up Approach) : – พิจารณาแต่ละจุดข้อมูลเป็นคลัสเตอร์และรวมจุดข้อมูลเหล่านี้โดยพิจารณาจากการวัดระยะทางและเกณฑ์ที่ใช้สำหรับเชื่อมโยงคลัสเตอร์เหล่านี้

การแบ่งกลุ่มแบบลำดับชั้นแบบแบ่งกลุ่ม (วิธีจากบนลงล่าง) : – เริ่มต้นด้วยจุดข้อมูลทั้งหมดเป็นคลัสเตอร์เดียวและแยกจุดข้อมูลเหล่านี้ตามเกณฑ์การวัดระยะทางและเกณฑ์ การรวมกลุ่มและการแบ่งกลุ่มสามารถแสดงเป็น dendrogram และจำนวนคลัสเตอร์ที่จะเลือกได้โดยการอ้างถึงสิ่งเดียวกัน

DBSCAN (การจัดคลัสเตอร์เชิงพื้นที่ของแอปพลิเคชันที่มีเสียงรบกวนตามความหนาแน่น) : – เป็นวิธีการจัดกลุ่มตามความหนาแน่น อัลกอริธึมเช่น K-Means ทำงานได้ดีกับคลัสเตอร์ที่แยกจากกันอย่างเป็นธรรม และสร้างคลัสเตอร์ที่มีรูปร่างเป็นทรงกลม DBSCAN จะใช้เมื่อข้อมูลอยู่ในรูปแบบที่กำหนดเองและมีความไวต่อค่าผิดปกติน้อยกว่าด้วย จัดกลุ่มจุดข้อมูลที่มีจุดข้อมูลใกล้เคียงจำนวนมากภายในรัศมีที่กำหนด

OPTICS (จุดสั่งซื้อเพื่อระบุโครงสร้างคลัสเตอร์) : – เป็นวิธีการจัดกลุ่มตามความหนาแน่นอีกประเภทหนึ่ง และมีความคล้ายคลึงในกระบวนการกับ DBSCAN ยกเว้นว่าจะพิจารณาพารามิเตอร์เพิ่มเติมสองสามตัว แต่มันซับซ้อนในการคำนวณมากกว่า DBSCAN นอกจากนี้ มันไม่ได้แยกจุดข้อมูลออกเป็นคลัสเตอร์ แต่สร้างพล็อตความสามารถในการเข้าถึง ซึ่งสามารถช่วยในการตีความการสร้างคลัสเตอร์

BIRCH (การลดและจัดกลุ่มซ้ำแบบสมดุลโดยใช้ลำดับชั้น) : – สร้างคลัสเตอร์โดยการสร้างสรุปข้อมูล ทำงานได้ดีกับชุดข้อมูลขนาดใหญ่เนื่องจากจะสรุปข้อมูลก่อนแล้วจึงใช้ชุดเดียวกันนี้เพื่อสร้างคลัสเตอร์ อย่างไรก็ตาม สามารถจัดการกับแอตทริบิวต์ตัวเลขที่แสดงในช่องว่างเท่านั้น

อ่านเพิ่มเติม: อัลกอริทึมการขุดข้อมูลที่คุณควรทราบ

แอปพลิเคชั่น

การแบ่งส่วนฐานผู้บริโภคในตลาด
วิเคราะห์โซเชียลเน็ตเวิร์ก.
การแบ่งส่วนรูปภาพ
ระบบแนะนำ.

การรับรองขั้นสูงของ Data Science, พันธมิตรจ้างงานมากกว่า 250 ราย, การเรียนรู้มากกว่า 300 ชั่วโมง, 0% EMI

ความแตกต่างระหว่างการจัดกลุ่มและการจำแนกประเภท

ประเภท : – การจัดกลุ่มเป็นวิธีการเรียนรู้แบบไม่มีผู้ดูแล ในขณะที่การจัดประเภทเป็นวิธีการเรียนรู้แบบมีผู้ดูแล
กระบวนการ : – ในการจัดกลุ่ม จุดข้อมูลจะถูกจัดกลุ่มเป็นกลุ่มตามความคล้ายคลึงกัน การจัดประเภทเกี่ยวข้องกับการจัดประเภทข้อมูลที่ป้อนเข้าเป็นหนึ่งในป้ายชื่อคลาสจากตัวแปรผลลัพธ์
การ ทำนาย : – การจำแนกประเภทเกี่ยวข้องกับการทำนายของตัวแปรอินพุตตามการสร้างแบบจำลอง โดยทั่วไป การจัดกลุ่มจะใช้ในการวิเคราะห์ข้อมูลและทำการอนุมานจากข้อมูลนั้นเพื่อการตัดสินใจที่ดีขึ้น
การแยกข้อมูล : – อัลกอริทึมการจำแนกประเภทต้องการข้อมูลที่จะแยกออกเป็นข้อมูลการฝึกอบรมและทดสอบสำหรับการทำนายและประเมินแบบจำลอง อัลกอริทึมการจัดกลุ่มไม่จำเป็นต้องมีการแยกข้อมูลเพื่อใช้งาน
Data Label : – อัลกอริทึมการจำแนกประเภทจัดการกับข้อมูลที่ติดป้ายกำกับในขณะที่อัลกอริทึมการจัดกลุ่มจัดการกับข้อมูลที่ไม่มีป้ายกำกับ
ขั้นตอน : – กระบวนการจำแนกประกอบด้วยสองขั้นตอน – การฝึกอบรมและการทดสอบ กระบวนการจัดกลุ่มเกี่ยวข้องกับการจัดกลุ่มข้อมูลเท่านั้น
ความซับซ้อน : – เนื่องจากการจำแนกประเภทเกี่ยวข้องกับขั้นตอนจำนวนมาก ความซับซ้อนของอัลกอริธึมการจำแนกประเภทจะสูงกว่าอัลกอริธึมการจัดกลุ่มที่มีจุดมุ่งหมายเพื่อจัดกลุ่มข้อมูลเท่านั้น

บทสรุป

วิธีการจัดประเภทและการจัดกลุ่มจะแตกต่างกัน และผลลัพธ์ที่คาดหวังจากอัลกอริทึมก็แตกต่างกันเช่นกัน โดยสรุป ทั้งการจำแนกประเภทและการจัดกลุ่มใช้เพื่อจัดการกับปัญหาที่แตกต่างกัน บทความนี้เป็นข้อมูลเบื้องต้นเกี่ยวกับการจัดประเภทและการจัดกลุ่ม

นอกจากนี้เรายังอ่านเกี่ยวกับอัลกอริทึมประเภทต่างๆ ที่ใช้ในแต่ละกรณีพร้อมกับแอปพลิเคชันบางส่วนอีกด้วย อัลกอริทึมที่แสดงในบทความนี้ไม่ครบถ้วนสมบูรณ์ คือไม่ใช่รายการที่สมบูรณ์และมีอัลกอริธึมอื่น ๆ อีกมากมายที่สามารถใช้เพื่อจัดการกับปัญหาดังกล่าว

หากคุณอยากรู้ที่จะเรียนรู้วิทยาศาสตร์ข้อมูล ลองดู PG Diploma in Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ, เวิร์กช็อปภาคปฏิบัติ, การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม, ตัวต่อตัวกับอุตสาหกรรม ที่ปรึกษา การเรียนรู้และความช่วยเหลือมากกว่า 400 ชั่วโมงกับบริษัทชั้นนำ

วิธีการและการใช้งาน Clustering ต่างกันอย่างไร

คลัสเตอร์สามารถเรียกได้ว่าเป็นกลุ่มของอ็อบเจ็กต์ที่อยู่ภายใต้คลาสเดียวกัน พูดง่ายๆ ก็คือ คลัสเตอร์คือกลุ่มของอ็อบเจ็กต์ที่มีคุณสมบัติคล้ายคลึงกัน การจัดกลุ่มเป็นที่ทราบกันดีว่าเป็นกระบวนการที่สำคัญสำหรับการวิเคราะห์ในแมชชีนเลิร์นนิง

วิธีการต่างๆ ของการจัดกลุ่ม

1. การทำคลัสเตอร์ตามการแบ่งพาร์ติชัน
2. การจัดกลุ่มตามลำดับชั้น
3. การจัดกลุ่มตามความหนาแน่น
4. การจัดกลุ่มตามตาราง
5. การจัดกลุ่มตามแบบจำลอง

แอพพลิเคชั่นต่างๆ ของ Clustering

1. เครื่องยนต์แนะนำ
2. การแบ่งส่วนตลาดและลูกค้า
3. การวิเคราะห์เครือข่ายสังคม (SNA)
4. การจัดกลุ่มผลการค้นหา
5. การวิเคราะห์ข้อมูลทางชีวภาพ
6. การวิเคราะห์ภาพทางการแพทย์
7. การระบุเซลล์มะเร็ง

นี่เป็นวิธีการที่ใช้กันอย่างแพร่หลายและแอปพลิเคชันการทำคลัสเตอร์ที่ได้รับความนิยมมากที่สุด

ตัวแยกประเภทและการใช้งานต่างๆ ของ Classification คืออะไร?

เทคนิคการจำแนกประเภทใช้สำหรับติดป้ายกำกับบนทุกคลาสที่สร้างขึ้นโดยการจัดหมวดหมู่ข้อมูลเป็นจำนวนคลาสที่แตกต่างกัน

ลักษณนามสามารถเป็น 2 ประเภท:

1. ตัวแยกประเภทไบนารี – ในที่นี้ การจัดประเภทจะดำเนินการโดยมีเพียง 2 ผลลัพธ์ที่เป็นไปได้หรือ 2 คลาสที่แตกต่างกัน เช่น การจำแนกประเภทชายและหญิง อีเมลขยะ และอีเมลที่ไม่ใช่สแปม เป็นต้น
2. ตัวแยกประเภทหลายคลาส – ที่นี่ การจัดประเภทจะดำเนินการด้วยคลาสที่แตกต่างกันมากกว่าสองคลาส เช่น การจำแนกประเภทของดิน การจำแนกประเภทของดนตรี เป็นต้น

การใช้งานของการจำแนกประเภทคือ:

1. การจัดประเภทเอกสาร
การระบุไบโอเมตริกซ์
การรู้จำลายมือ
การรู้จำเสียง

นี่เป็นเพียงส่วนน้อยของการใช้งานการจัดหมวดหมู่ นี่เป็นแนวคิดที่มีประโยชน์ในหลายอุตสาหกรรม

อัลกอริธึมการจำแนกประเภทที่พบบ่อยที่สุดในการเรียนรู้ของเครื่องคืออะไร

การจัดประเภทเป็นงานของการประมวลผลภาษาธรรมชาติที่ขึ้นอยู่กับอัลกอริธึมการเรียนรู้ของเครื่อง ทุกอัลกอริทึมใช้สำหรับแก้ปัญหาเฉพาะ ดังนั้น ทุกอัลกอริธึมจึงถูกใช้ในสถานที่ต่างกันไปตามความต้องการ

มีอัลกอริธึมการจัดหมวดหมู่มากมายที่สามารถใช้กับชุดข้อมูลได้ ในสถิติ การศึกษาการจำแนกประเภทนั้นกว้างมาก และการใช้อัลกอริธึมเฉพาะใดๆ จะขึ้นอยู่กับชุดข้อมูลที่คุณกำลังทำงานอยู่ทั้งหมด ด้านล่างนี้คืออัลกอริธึมที่พบบ่อยที่สุดในการเรียนรู้ของเครื่องสำหรับการจำแนกประเภท:

1. รองรับเครื่องเวกเตอร์
2. อ่าวไร้เดียงสา
3. ต้นไม้แห่งการตัดสินใจ
4. K-เพื่อนบ้านที่ใกล้ที่สุด
5. การถดถอยโลจิสติก

อัลกอริธึมการจำแนกประเภทเหล่านี้ใช้เพื่อทำให้งานวิเคราะห์หลายอย่างง่ายและมีประสิทธิภาพ ซึ่งอาจใช้เวลาหลายร้อยชั่วโมงในการดำเนินการของมนุษย์