การทำคลัสเตอร์ในการเรียนรู้ของเครื่อง: อธิบายการทำคลัสเตอร์ 3 ประเภท
เผยแพร่แล้ว: 2020-11-30สารบัญ
บทนำ
แมชชีนเลิร์นนิงเป็นหนึ่งในเทคโนโลยีที่ร้อนแรงที่สุดในปี 2020 เนื่องจากข้อมูลเพิ่มขึ้นทุกวัน ความต้องการแมชชีนเลิร์นนิงก็เพิ่มขึ้นอย่างทวีคูณ แมชชีนเลิร์นนิงเป็นหัวข้อกว้างใหญ่ที่มีอัลกอริธึมและกรณีการใช้งานที่แตกต่างกันในแต่ละโดเมนและอุตสาหกรรม หนึ่งในนั้นคือ Unsupervised Learning ซึ่งเราสามารถเห็นการใช้ Clustering
การเรียนรู้แบบไม่มีผู้ดูแลเป็นเทคนิคที่เครื่องเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับ เนื่องจากเราไม่รู้จักฉลาก จึงไม่มีคำตอบที่ถูกต้องสำหรับเครื่องที่จะเรียนรู้จากฉลากนี้ แต่ตัวเครื่องเองพบรูปแบบบางอย่างจากข้อมูลที่กำหนดเพื่อหาคำตอบของปัญหาทางธุรกิจ
การทำคลัสเตอร์เป็นเทคนิคการเรียนรู้แบบไม่มีผู้ดูแลสำหรับการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการจัดกลุ่มของข้อมูลที่ไม่มีป้ายกำกับที่กำหนด ในชุดข้อมูลที่สะอาดแต่ละชุด โดยใช้ Clustering Algorithm เราสามารถจัดกลุ่มจุดข้อมูลที่กำหนดลงในแต่ละกลุ่มได้ อัลกอริทึมการจัดกลุ่มถือว่าจุดข้อมูลที่อยู่ในคลัสเตอร์เดียวกันควรมีคุณสมบัติที่คล้ายคลึงกัน ในขณะที่จุดข้อมูลในคลัสเตอร์ต่างๆ ควรมีคุณสมบัติที่แตกต่างกันอย่างมาก
ในบทความนี้ เราจะมาเรียนรู้ความจำเป็นของการทำคลัสเตอร์ การทำคลัสเตอร์ประเภทต่างๆ พร้อมกับข้อดีและข้อเสีย
อ่าน: ข้อกำหนดเบื้องต้นของการเรียนรู้ของเครื่อง
การทำคลัสเตอร์จำเป็นอย่างไร?
การทำคลัสเตอร์คืออัลกอริทึม ML ที่ใช้กันอย่างแพร่หลาย ซึ่งช่วยให้เราค้นหาความสัมพันธ์ที่ซ่อนอยู่ระหว่างจุดข้อมูลในชุดข้อมูลของเรา

ตัวอย่าง:
1) ลูกค้าถูกแบ่งตามความคล้ายคลึงกันของลูกค้าเดิมและสามารถใช้สำหรับคำแนะนำได้
2) จากการรวบรวมข้อมูลข้อความ เราสามารถจัดระเบียบข้อมูลตามความคล้ายคลึงของเนื้อหาเพื่อสร้างลำดับชั้นของหัวข้อ
3) การประมวลผลภาพเป็นหลักในการวิจัยทางชีววิทยาเพื่อระบุรูปแบบพื้นฐาน
4) การกรองสแปม
5) การระบุกิจกรรมที่เป็นการฉ้อโกงและทางอาญา
6) สามารถใช้สำหรับแฟนตาซีฟุตบอลและกีฬา
ประเภทของคลัสเตอร์
Clustering Algorithm ในแมชชีนเลิร์นนิงมีหลายประเภท เราจะพูดถึงอัลกอริธึมสามตัวด้านล่างในบทความนี้:
1) K-หมายถึงการจัดกลุ่ม.
2) การทำคลัสเตอร์ Mean-Shift
3) ดีบีเอสแคน.
1. การจัดกลุ่ม K-Means
K-Means เป็นอัลกอริธึมการจัดกลุ่มที่ได้รับความนิยมมากที่สุดในบรรดาอัลกอริธึมการจัดกลุ่มอื่นๆ ในการเรียนรู้ของเครื่อง เราสามารถเห็นอัลกอริธึมนี้ใช้ในอุตสาหกรรมชั้นนำมากมาย หรือแม้แต่ในหลักสูตรแนะนำจำนวนมาก เป็นโมเดลที่ง่ายที่สุดรูปแบบหนึ่งในการเริ่มใช้งานและทำความเข้าใจ
ขั้นที่ 1 ขั้น แรก เราสุ่มเลือกจำนวน k เพื่อใช้และสุ่มเริ่มต้นจุดศูนย์กลางตามลำดับ
ขั้นตอนที่ 2 จากนั้นแยกจุดข้อมูลแต่ละจุดโดยคำนวณระยะทาง (แบบยุคลิดหรือแมนฮัตตัน) ระหว่างจุดนั้นกับศูนย์กลางแต่ละกลุ่ม จากนั้นจัดกลุ่มจุดข้อมูลให้อยู่ในคลัสเตอร์ที่มีจุดศูนย์กลางอยู่ใกล้ที่สุด
ขั้นตอนที่ 3 เราคำนวณศูนย์กลุ่มใหม่โดยใช้ค่าเฉลี่ยของเวกเตอร์ทั้งหมดในกลุ่ม
ขั้นตอนที่ 4 เราทำซ้ำขั้นตอนเหล่านี้ทั้งหมดสำหรับการทำซ้ำหลายครั้งหรือจนกว่าศูนย์กลุ่มจะไม่เปลี่ยนแปลงมากนัก
ข้อดี
1) เร็วมาก
2) การคำนวณน้อยมาก
3) ความซับซ้อนเชิงเส้น O(n)
ข้อเสีย
1) การเลือกค่า k
2) ศูนย์คลัสเตอร์ที่แตกต่างกันในการรันที่แตกต่างกัน
3) ขาดความสม่ำเสมอ
2. Mean-Shift Clustering
Mean shift clustering เป็นอัลกอริธึมที่ใช้หน้าต่างบานเลื่อนซึ่งพยายามระบุพื้นที่หนาแน่นของจุดข้อมูล การเป็นอัลกอริธึมแบบเซนทรอยด์ หมายความว่าเป้าหมายคือการค้นหาจุดศูนย์กลางของแต่ละคลาส ซึ่งจะทำงานโดยอัปเดตตัวเลือกสำหรับจุดศูนย์กลางให้เป็นค่าเฉลี่ยของจุดในหน้าต่างบานเลื่อน
หน้าต่างตัวเลือกที่เลือกเหล่านี้จะถูกกรองในขั้นตอนหลังการประมวลผลเพื่อกำจัดรายการที่ซ้ำกันซึ่งจะช่วยในการสร้างชุดศูนย์สุดท้ายและชั้นเรียนที่เกี่ยวข้อง

ขั้นตอนที่ 1 เราเริ่มต้นด้วยหน้าต่างบานเลื่อนวงกลมที่มีศูนย์กลางที่จุด C (สุ่มเลือก) และมีรัศมี r เป็นเคอร์เนล Mean shift คืออัลกอริธึมประเภทปีนเขาที่เกี่ยวข้องกับการขยับเคอร์เนลนี้ซ้ำๆ ไปยังพื้นที่ที่มีความหนาแน่นสูงขึ้นในแต่ละขั้นตอน จนกว่าเราจะถึงจุดบรรจบกัน
ขั้นตอนที่ 2 หลังจากการวนซ้ำแต่ละครั้ง หน้าต่างบานเลื่อนจะเลื่อนไปยังบริเวณที่มีความหนาแน่นสูงกว่าโดยเลื่อนจุดศูนย์กลางไปที่ค่าเฉลี่ยของจุดภายในหน้าต่าง ความหนาแน่นภายในหน้าต่างบานเลื่อนจะเพิ่มขึ้นตามจำนวนจุดภายในที่เพิ่มขึ้น การเลื่อนค่าเฉลี่ยของจุดในหน้าต่างจะค่อยๆ เคลื่อนไปยังบริเวณที่มีความหนาแน่นของจุดที่สูงกว่า
ขั้นตอนที่ 3 ในขั้นตอนนี้ เรายังคงเลื่อนหน้าต่างบานเลื่อนตามค่าเฉลี่ยต่อไป จนกว่าจะไม่มีทิศทางที่กะสามารถรับคะแนนเพิ่มเติมภายในเคอร์เนลที่เลือกได้
ขั้นตอนที่ 4 ขั้นตอนที่ 1-2 ใช้หน้าต่างบานเลื่อนหลายบานจนครบทุกจุดภายในหน้าต่าง เมื่อหน้าต่างบานเลื่อนหลายบานมักจะทับซ้อนกัน หน้าต่างที่มีจุดมากที่สุดจะถูกเลือก ขณะนี้จุดข้อมูลถูกจัดกลุ่มตามหน้าต่างบานเลื่อนที่จุดข้อมูลอยู่
ข้อดี
1) ไม่จำเป็นต้องเลือกจำนวนคลัสเตอร์
2) เข้ากันได้ดีกับความรู้สึกที่ขับเคลื่อนด้วยข้อมูลอย่างเป็นธรรมชาติ
ข้อเสีย
1) ข้อเสียเปรียบเพียงอย่างเดียวคือการเลือกขนาดหน้าต่าง (r) อาจไม่สำคัญ
3. การจัดคลัสเตอร์เชิงพื้นที่ตามความหนาแน่นของแอปพลิเคชันที่มีสัญญาณรบกวน (DBSCAN)
DBSCAN เหมือนกับการทำคลัสเตอร์ Mean-Shift ซึ่งเป็นอัลกอริธึมตามความหนาแน่นโดยมีการเปลี่ยนแปลงเล็กน้อย
ขั้นตอนที่ 1 มันเริ่มต้นด้วยจุดเริ่มต้นโดยพลการ บริเวณใกล้เคียงของจุดนี้ถูกดึงออกมาโดยใช้ระยะทางที่เรียกว่าเอปไซลอน
ขั้นตอนที่ 2 การจัดกลุ่มจะเริ่มขึ้นหากมีจุดเพียงพอและจุดข้อมูลจะกลายเป็นจุดใหม่จุดแรกในคลัสเตอร์ หากไม่มีข้อมูลเพียงพอ จุดจะถูกระบุว่าเป็นสัญญาณรบกวน และจุดนั้นจะถูกทำเครื่องหมายว่าเยี่ยมชม
ขั้นตอนที่ 3 จุดภายในเอปไซลอนมักจะกลายเป็นส่วนหนึ่งของคลัสเตอร์ ขั้นตอนนี้ซ้ำกับจุดทั้งหมดภายในคลัสเตอร์
ขั้นตอนที่ 4 ทำซ้ำขั้นตอนที่ 2&3 จนกว่าจุดในคลัสเตอร์จะถูกเยี่ยมชมและติดป้ายกำกับ
ขั้นตอนที่ 5 เมื่อเสร็จสิ้นคลัสเตอร์ปัจจุบัน จุดที่ยังไม่ได้เยี่ยมชมใหม่จะถูกประมวลผลเป็นคลัสเตอร์ใหม่ซึ่งนำไปสู่การจำแนกเป็นคลัสเตอร์หรือเป็นสัญญาณรบกวน
ข้อดี
1) ไม่จำเป็นต้องกำหนดจำนวนคลัสเตอร์
2) กำหนดค่าผิดปกติเป็นสัญญาณรบกวน
3) ช่วยในการค้นหากระจุกที่มีขนาดตามอำเภอใจและมีรูปร่างตามอำเภอใจได้ค่อนข้างดี
ข้อเสีย

1) ทำงานได้ไม่ดีกับคลัสเตอร์ที่มีความหนาแน่นต่างกัน
2) ทำงานได้ไม่ดีกับข้อมูลที่มีมิติสูง
อ่านเพิ่มเติม: แนวคิดโครงการการเรียนรู้ของเครื่อง
บทสรุป
ในบทความนี้ เราได้ทราบเกี่ยวกับความจำเป็นในการทำคลัสเตอร์ในตลาดปัจจุบัน อัลกอริธึมการจัดกลุ่มประเภทต่างๆ พร้อมกับข้อดีและข้อเสีย การทำคลัสเตอร์เป็นหัวข้อที่น่าสนใจมากในการเรียนรู้ของเครื่อง และยังมีอัลกอริธึมการทำคลัสเตอร์ประเภทอื่นๆ อีกมากที่ควรค่าแก่การเรียนรู้
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
การจัดกลุ่มส่วนผสมแบบเกาส์เซียนหมายความว่าอย่างไร
แบบจำลองผสมแบบเกาส์เซียนมักใช้ในกรณีของข้อมูลการสืบค้นเพื่อทำคลัสเตอร์แบบแข็งหรือแบบอ่อน แบบจำลองส่วนผสมแบบเกาส์เซียนสร้างสมมติฐานบางประการเพื่อให้สามารถจัดกลุ่มได้ดี ตามสมมติฐาน โมเดลจะจัดกลุ่มจุดข้อมูลที่เป็นของการแจกแจงเดี่ยวเข้าด้วยกัน สิ่งเหล่านี้คือแบบจำลองความน่าจะเป็น และพวกมันใช้วิธีการแบบซอฟต์คลัสเตอร์เพื่อดำเนินการกระบวนการจัดกลุ่มอย่างมีประสิทธิภาพ
ค่าสัมประสิทธิ์ภาพเงาในการจัดกลุ่มคืออะไร?
ในการวัดว่าการจัดกลุ่มทำได้ดีเพียงใด เราใช้สัมประสิทธิ์ภาพเงา โดยพื้นฐานแล้ว ระยะทางเฉลี่ยระหว่างสองคลัสเตอร์จะถูกวัด จากนั้นจึงคำนวณความกว้างของเงาโดยใช้สูตร ด้วยวิธีนี้ เราสามารถวัดจำนวนคลัสเตอร์ที่เหมาะสมที่สุดที่มีอยู่ในข้อมูลที่กำหนดได้อย่างง่ายดาย และด้วยเหตุนี้จึงค้นหาประสิทธิภาพของการจัดกลุ่มที่ทำเสร็จแล้ว
การจัดกลุ่มแบบคลุมเครือในการเรียนรู้ของเครื่องหมายความว่าอย่างไร
เมื่อข้อมูลที่ให้มาอยู่ภายใต้คลัสเตอร์หรือกลุ่มมากกว่าหนึ่งกลุ่ม จะใช้วิธีการจัดกลุ่มแบบคลุมเครือซึ่งทำงานบนอัลกอริทึม C-mean แบบคลุมเครือหรืออัลกอริทึม K-mean แบบคลุมเครือ เป็นวิธีการจัดกลุ่มแบบอ่อน ตามระยะห่างระหว่างศูนย์กลางคลัสเตอร์และจุดภาพ วิธีการกำหนดค่าสมาชิกให้กับแต่ละจุดภาพที่เกี่ยวข้องกับแต่ละศูนย์คลัสเตอร์