การทำคลัสเตอร์ในการเรียนรู้ของเครื่อง: อธิบายการทำคลัสเตอร์ 3 ประเภท

เผยแพร่แล้ว: 2020-11-30

สารบัญ

บทนำ
การทำคลัสเตอร์จำเป็นอย่างไร?
ประเภทของคลัสเตอร์
- 1. การจัดกลุ่ม K-Means
- 2. Mean-Shift Clustering
- 3. การจัดคลัสเตอร์เชิงพื้นที่ตามความหนาแน่นของแอปพลิเคชันที่มีสัญญาณรบกวน (DBSCAN)
บทสรุป
การจัดกลุ่มส่วนผสมแบบเกาส์เซียนหมายความว่าอย่างไร
ค่าสัมประสิทธิ์ภาพเงาในการจัดกลุ่มคืออะไร?
การจัดกลุ่มแบบคลุมเครือในการเรียนรู้ของเครื่องหมายความว่าอย่างไร

บทนำ

แมชชีนเลิร์นนิงเป็นหนึ่งในเทคโนโลยีที่ร้อนแรงที่สุดในปี 2020 เนื่องจากข้อมูลเพิ่มขึ้นทุกวัน ความต้องการแมชชีนเลิร์นนิงก็เพิ่มขึ้นอย่างทวีคูณ แมชชีนเลิร์นนิงเป็นหัวข้อกว้างใหญ่ที่มีอัลกอริธึมและกรณีการใช้งานที่แตกต่างกันในแต่ละโดเมนและอุตสาหกรรม หนึ่งในนั้นคือ Unsupervised Learning ซึ่งเราสามารถเห็นการใช้ Clustering

การเรียนรู้แบบไม่มีผู้ดูแลเป็นเทคนิคที่เครื่องเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับ เนื่องจากเราไม่รู้จักฉลาก จึงไม่มีคำตอบที่ถูกต้องสำหรับเครื่องที่จะเรียนรู้จากฉลากนี้ แต่ตัวเครื่องเองพบรูปแบบบางอย่างจากข้อมูลที่กำหนดเพื่อหาคำตอบของปัญหาทางธุรกิจ

การทำคลัสเตอร์เป็นเทคนิคการเรียนรู้แบบไม่มีผู้ดูแลสำหรับการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการจัดกลุ่มของข้อมูลที่ไม่มีป้ายกำกับที่กำหนด ในชุดข้อมูลที่สะอาดแต่ละชุด โดยใช้ Clustering Algorithm เราสามารถจัดกลุ่มจุดข้อมูลที่กำหนดลงในแต่ละกลุ่มได้ อัลกอริทึมการจัดกลุ่มถือว่าจุดข้อมูลที่อยู่ในคลัสเตอร์เดียวกันควรมีคุณสมบัติที่คล้ายคลึงกัน ในขณะที่จุดข้อมูลในคลัสเตอร์ต่างๆ ควรมีคุณสมบัติที่แตกต่างกันอย่างมาก

ในบทความนี้ เราจะมาเรียนรู้ความจำเป็นของการทำคลัสเตอร์ การทำคลัสเตอร์ประเภทต่างๆ พร้อมกับข้อดีและข้อเสีย

อ่าน: ข้อกำหนดเบื้องต้นของการเรียนรู้ของเครื่อง

การทำคลัสเตอร์จำเป็นอย่างไร?

การทำคลัสเตอร์คืออัลกอริทึม ML ที่ใช้กันอย่างแพร่หลาย ซึ่งช่วยให้เราค้นหาความสัมพันธ์ที่ซ่อนอยู่ระหว่างจุดข้อมูลในชุดข้อมูลของเรา

ตัวอย่าง:

1) ลูกค้าถูกแบ่งตามความคล้ายคลึงกันของลูกค้าเดิมและสามารถใช้สำหรับคำแนะนำได้

2) จากการรวบรวมข้อมูลข้อความ เราสามารถจัดระเบียบข้อมูลตามความคล้ายคลึงของเนื้อหาเพื่อสร้างลำดับชั้นของหัวข้อ

3) การประมวลผลภาพเป็นหลักในการวิจัยทางชีววิทยาเพื่อระบุรูปแบบพื้นฐาน

4) การกรองสแปม

5) การระบุกิจกรรมที่เป็นการฉ้อโกงและทางอาญา

6) สามารถใช้สำหรับแฟนตาซีฟุตบอลและกีฬา

ประเภทของคลัสเตอร์

Clustering Algorithm ในแมชชีนเลิร์นนิงมีหลายประเภท เราจะพูดถึงอัลกอริธึมสามตัวด้านล่างในบทความนี้:

1) K-หมายถึงการจัดกลุ่ม.

2) การทำคลัสเตอร์ Mean-Shift

3) ดีบีเอสแคน.

1. การจัดกลุ่ม K-Means

K-Means เป็นอัลกอริธึมการจัดกลุ่มที่ได้รับความนิยมมากที่สุดในบรรดาอัลกอริธึมการจัดกลุ่มอื่นๆ ในการเรียนรู้ของเครื่อง เราสามารถเห็นอัลกอริธึมนี้ใช้ในอุตสาหกรรมชั้นนำมากมาย หรือแม้แต่ในหลักสูตรแนะนำจำนวนมาก เป็นโมเดลที่ง่ายที่สุดรูปแบบหนึ่งในการเริ่มใช้งานและทำความเข้าใจ

ขั้นที่ 1 ขั้น แรก เราสุ่มเลือกจำนวน k เพื่อใช้และสุ่มเริ่มต้นจุดศูนย์กลางตามลำดับ

ขั้นตอนที่ 2 จากนั้นแยกจุดข้อมูลแต่ละจุดโดยคำนวณระยะทาง (แบบยุคลิดหรือแมนฮัตตัน) ระหว่างจุดนั้นกับศูนย์กลางแต่ละกลุ่ม จากนั้นจัดกลุ่มจุดข้อมูลให้อยู่ในคลัสเตอร์ที่มีจุดศูนย์กลางอยู่ใกล้ที่สุด

ขั้นตอนที่ 3 เราคำนวณศูนย์กลุ่มใหม่โดยใช้ค่าเฉลี่ยของเวกเตอร์ทั้งหมดในกลุ่ม

ขั้นตอนที่ 4 เราทำซ้ำขั้นตอนเหล่านี้ทั้งหมดสำหรับการทำซ้ำหลายครั้งหรือจนกว่าศูนย์กลุ่มจะไม่เปลี่ยนแปลงมากนัก

ข้อดี

1) เร็วมาก

2) การคำนวณน้อยมาก

3) ความซับซ้อนเชิงเส้น O(n)

ข้อเสีย

1) การเลือกค่า k

2) ศูนย์คลัสเตอร์ที่แตกต่างกันในการรันที่แตกต่างกัน

3) ขาดความสม่ำเสมอ

2. Mean-Shift Clustering

Mean shift clustering เป็นอัลกอริธึมที่ใช้หน้าต่างบานเลื่อนซึ่งพยายามระบุพื้นที่หนาแน่นของจุดข้อมูล การเป็นอัลกอริธึมแบบเซนทรอยด์ หมายความว่าเป้าหมายคือการค้นหาจุดศูนย์กลางของแต่ละคลาส ซึ่งจะทำงานโดยอัปเดตตัวเลือกสำหรับจุดศูนย์กลางให้เป็นค่าเฉลี่ยของจุดในหน้าต่างบานเลื่อน

หน้าต่างตัวเลือกที่เลือกเหล่านี้จะถูกกรองในขั้นตอนหลังการประมวลผลเพื่อกำจัดรายการที่ซ้ำกันซึ่งจะช่วยในการสร้างชุดศูนย์สุดท้ายและชั้นเรียนที่เกี่ยวข้อง

ขั้นตอนที่ 1 เราเริ่มต้นด้วยหน้าต่างบานเลื่อนวงกลมที่มีศูนย์กลางที่จุด C (สุ่มเลือก) และมีรัศมี r เป็นเคอร์เนล Mean shift คืออัลกอริธึมประเภทปีนเขาที่เกี่ยวข้องกับการขยับเคอร์เนลนี้ซ้ำๆ ไปยังพื้นที่ที่มีความหนาแน่นสูงขึ้นในแต่ละขั้นตอน จนกว่าเราจะถึงจุดบรรจบกัน

ขั้นตอนที่ 2 หลังจากการวนซ้ำแต่ละครั้ง หน้าต่างบานเลื่อนจะเลื่อนไปยังบริเวณที่มีความหนาแน่นสูงกว่าโดยเลื่อนจุดศูนย์กลางไปที่ค่าเฉลี่ยของจุดภายในหน้าต่าง ความหนาแน่นภายในหน้าต่างบานเลื่อนจะเพิ่มขึ้นตามจำนวนจุดภายในที่เพิ่มขึ้น การเลื่อนค่าเฉลี่ยของจุดในหน้าต่างจะค่อยๆ เคลื่อนไปยังบริเวณที่มีความหนาแน่นของจุดที่สูงกว่า

ขั้นตอนที่ 3 ในขั้นตอนนี้ เรายังคงเลื่อนหน้าต่างบานเลื่อนตามค่าเฉลี่ยต่อไป จนกว่าจะไม่มีทิศทางที่กะสามารถรับคะแนนเพิ่มเติมภายในเคอร์เนลที่เลือกได้

ขั้นตอนที่ 4 ขั้นตอนที่ 1-2 ใช้หน้าต่างบานเลื่อนหลายบานจนครบทุกจุดภายในหน้าต่าง เมื่อหน้าต่างบานเลื่อนหลายบานมักจะทับซ้อนกัน หน้าต่างที่มีจุดมากที่สุดจะถูกเลือก ขณะนี้จุดข้อมูลถูกจัดกลุ่มตามหน้าต่างบานเลื่อนที่จุดข้อมูลอยู่

ข้อดี

1) ไม่จำเป็นต้องเลือกจำนวนคลัสเตอร์

2) เข้ากันได้ดีกับความรู้สึกที่ขับเคลื่อนด้วยข้อมูลอย่างเป็นธรรมชาติ

ข้อเสีย

1) ข้อเสียเปรียบเพียงอย่างเดียวคือการเลือกขนาดหน้าต่าง (r) อาจไม่สำคัญ

3. การจัดคลัสเตอร์เชิงพื้นที่ตามความหนาแน่นของแอปพลิเคชันที่มีสัญญาณรบกวน (DBSCAN)

DBSCAN เหมือนกับการทำคลัสเตอร์ Mean-Shift ซึ่งเป็นอัลกอริธึมตามความหนาแน่นโดยมีการเปลี่ยนแปลงเล็กน้อย

ขั้นตอนที่ 1 มันเริ่มต้นด้วยจุดเริ่มต้นโดยพลการ บริเวณใกล้เคียงของจุดนี้ถูกดึงออกมาโดยใช้ระยะทางที่เรียกว่าเอปไซลอน

ขั้นตอนที่ 2 การจัดกลุ่มจะเริ่มขึ้นหากมีจุดเพียงพอและจุดข้อมูลจะกลายเป็นจุดใหม่จุดแรกในคลัสเตอร์ หากไม่มีข้อมูลเพียงพอ จุดจะถูกระบุว่าเป็นสัญญาณรบกวน และจุดนั้นจะถูกทำเครื่องหมายว่าเยี่ยมชม

ขั้นตอนที่ 3 จุดภายในเอปไซลอนมักจะกลายเป็นส่วนหนึ่งของคลัสเตอร์ ขั้นตอนนี้ซ้ำกับจุดทั้งหมดภายในคลัสเตอร์

ขั้นตอนที่ 4 ทำซ้ำขั้นตอนที่ 2&3 จนกว่าจุดในคลัสเตอร์จะถูกเยี่ยมชมและติดป้ายกำกับ

ขั้นตอนที่ 5 เมื่อเสร็จสิ้นคลัสเตอร์ปัจจุบัน จุดที่ยังไม่ได้เยี่ยมชมใหม่จะถูกประมวลผลเป็นคลัสเตอร์ใหม่ซึ่งนำไปสู่การจำแนกเป็นคลัสเตอร์หรือเป็นสัญญาณรบกวน

ข้อดี

1) ไม่จำเป็นต้องกำหนดจำนวนคลัสเตอร์

2) กำหนดค่าผิดปกติเป็นสัญญาณรบกวน

3) ช่วยในการค้นหากระจุกที่มีขนาดตามอำเภอใจและมีรูปร่างตามอำเภอใจได้ค่อนข้างดี

ข้อเสีย

1) ทำงานได้ไม่ดีกับคลัสเตอร์ที่มีความหนาแน่นต่างกัน

2) ทำงานได้ไม่ดีกับข้อมูลที่มีมิติสูง

อ่านเพิ่มเติม: แนวคิดโครงการการเรียนรู้ของเครื่อง

บทสรุป

ในบทความนี้ เราได้ทราบเกี่ยวกับความจำเป็นในการทำคลัสเตอร์ในตลาดปัจจุบัน อัลกอริธึมการจัดกลุ่มประเภทต่างๆ พร้อมกับข้อดีและข้อเสีย การทำคลัสเตอร์เป็นหัวข้อที่น่าสนใจมากในการเรียนรู้ของเครื่อง และยังมีอัลกอริธึมการทำคลัสเตอร์ประเภทอื่นๆ อีกมากที่ควรค่าแก่การเรียนรู้

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

การจัดกลุ่มส่วนผสมแบบเกาส์เซียนหมายความว่าอย่างไร

แบบจำลองผสมแบบเกาส์เซียนมักใช้ในกรณีของข้อมูลการสืบค้นเพื่อทำคลัสเตอร์แบบแข็งหรือแบบอ่อน แบบจำลองส่วนผสมแบบเกาส์เซียนสร้างสมมติฐานบางประการเพื่อให้สามารถจัดกลุ่มได้ดี ตามสมมติฐาน โมเดลจะจัดกลุ่มจุดข้อมูลที่เป็นของการแจกแจงเดี่ยวเข้าด้วยกัน สิ่งเหล่านี้คือแบบจำลองความน่าจะเป็น และพวกมันใช้วิธีการแบบซอฟต์คลัสเตอร์เพื่อดำเนินการกระบวนการจัดกลุ่มอย่างมีประสิทธิภาพ

ค่าสัมประสิทธิ์ภาพเงาในการจัดกลุ่มคืออะไร?

ในการวัดว่าการจัดกลุ่มทำได้ดีเพียงใด เราใช้สัมประสิทธิ์ภาพเงา โดยพื้นฐานแล้ว ระยะทางเฉลี่ยระหว่างสองคลัสเตอร์จะถูกวัด จากนั้นจึงคำนวณความกว้างของเงาโดยใช้สูตร ด้วยวิธีนี้ เราสามารถวัดจำนวนคลัสเตอร์ที่เหมาะสมที่สุดที่มีอยู่ในข้อมูลที่กำหนดได้อย่างง่ายดาย และด้วยเหตุนี้จึงค้นหาประสิทธิภาพของการจัดกลุ่มที่ทำเสร็จแล้ว

การจัดกลุ่มแบบคลุมเครือในการเรียนรู้ของเครื่องหมายความว่าอย่างไร

เมื่อข้อมูลที่ให้มาอยู่ภายใต้คลัสเตอร์หรือกลุ่มมากกว่าหนึ่งกลุ่ม จะใช้วิธีการจัดกลุ่มแบบคลุมเครือซึ่งทำงานบนอัลกอริทึม C-mean แบบคลุมเครือหรืออัลกอริทึม K-mean แบบคลุมเครือ เป็นวิธีการจัดกลุ่มแบบอ่อน ตามระยะห่างระหว่างศูนย์กลางคลัสเตอร์และจุดภาพ วิธีการกำหนดค่าสมาชิกให้กับแต่ละจุดภาพที่เกี่ยวข้องกับแต่ละศูนย์คลัสเตอร์