Clustering คืออะไรและประเภทต่าง ๆ ของ Clustering Methods
เผยแพร่แล้ว: 2020-12-01พิจารณาว่าตัวเองกำลังอยู่ในการสนทนากับประธานเจ้าหน้าที่ฝ่ายการตลาดขององค์กรของคุณ องค์กรต้องการทำความเข้าใจลูกค้าให้ดีขึ้นด้วยความช่วยเหลือของข้อมูล เพื่อที่จะสามารถช่วยเป้าหมายทางธุรกิจและมอบประสบการณ์ที่ดีขึ้นให้กับลูกค้า นี่เป็นหนึ่งในสถานการณ์ที่การทำคลัสเตอร์เข้ามาช่วยเหลือ
สารบัญ
การทำคลัสเตอร์คืออะไร?
การจัดกลุ่มเป็นวิธีการเรียนรู้แบบไม่มีผู้ดูแลสำหรับการเรียนรู้ของเครื่อง ในวิธีการเรียนรู้แบบไม่มีผู้ดูแล การอนุมานจะดึงมาจากชุดข้อมูลที่ไม่มีตัวแปรเอาต์พุตที่มีป้ายกำกับ เป็นเทคนิคการวิเคราะห์ข้อมูลเชิงสำรวจที่ช่วยให้เราสามารถวิเคราะห์ชุดข้อมูลหลายตัวแปรได้
การทำคลัสเตอร์เป็นงานในการแบ่งชุดข้อมูลออกเป็นคลัสเตอร์จำนวนหนึ่งในลักษณะที่จุดข้อมูลที่เป็นของคลัสเตอร์มีลักษณะที่คล้ายคลึงกัน คลัสเตอร์ไม่ได้เป็นเพียงการจัดกลุ่มของจุดข้อมูลเพื่อให้ระยะห่างระหว่างจุดข้อมูลภายในคลัสเตอร์มีน้อย
กล่าวอีกนัยหนึ่ง คลัสเตอร์คือภูมิภาคที่มีความหนาแน่นของจุดข้อมูลที่คล้ายคลึงกันสูง โดยทั่วไปจะใช้สำหรับการวิเคราะห์ชุดข้อมูล เพื่อค้นหาข้อมูลเชิงลึกระหว่างชุดข้อมูลขนาดใหญ่ และทำการอนุมานจากชุดข้อมูลนั้น โดยทั่วไป กระจุกจะมีลักษณะเป็นทรงกลม แต่ไม่จำเป็น เนื่องจากกระจุกจะมีรูปร่างอะไรก็ได้ เรียนรู้เกี่ยวกับการจัดกลุ่มและแนวคิดเกี่ยวกับวิทยาศาสตร์ข้อมูลเพิ่มเติมในหลักสูตรออนไลน์ด้านวิทยาศาสตร์ข้อมูลของเรา
ขึ้นอยู่กับประเภทของอัลกอริธึมที่เราใช้ซึ่งตัดสินว่าจะสร้างคลัสเตอร์อย่างไร การอนุมานที่จำเป็นต้องดึงออกมาจากชุดข้อมูลนั้นขึ้นอยู่กับผู้ใช้ด้วย เนื่องจากไม่มีเกณฑ์สำหรับการจัดกลุ่มที่ดี
Clustering Method มีกี่ประเภท?
การจัดกลุ่มตัวเองสามารถแบ่งออกเป็นสองประเภท ได้แก่ การทำคลัสเตอร์แบบแข็งและการทำคลัสเตอร์แบบอ่อน ในฮาร์ดคลัสเตอร์ จุดข้อมูลหนึ่งจุดสามารถเป็นของคลัสเตอร์เดียวเท่านั้น แต่ในการทำคลัสเตอร์แบบซอฟต์ ผลลัพธ์ที่ได้คือความน่าจะเป็นของจุดข้อมูลที่เป็นของจำนวนคลัสเตอร์ที่กำหนดไว้ล่วงหน้าแต่ละจำนวน
การทำคลัสเตอร์ตามความหนาแน่น
ในวิธีนี้ คลัสเตอร์จะถูกสร้างขึ้นตามความหนาแน่นของจุดข้อมูลที่แสดงในพื้นที่ข้อมูล ภูมิภาคที่มีความหนาแน่นเนื่องจากจุดข้อมูลจำนวนมากที่อาศัยอยู่ในภูมิภาคนั้นถือเป็นคลัสเตอร์
จุดข้อมูลในพื้นที่เบาบาง (พื้นที่ที่มีจุดข้อมูลน้อยมาก) ถือเป็นสัญญาณรบกวนหรือค่าผิดปกติ กลุ่มที่สร้างขึ้นในวิธีการเหล่านี้สามารถมีรูปร่างโดยพลการ ต่อไปนี้เป็นตัวอย่างของอัลกอริธึมการจัดกลุ่มตามความหนาแน่น:
DBSCAN (การจัดคลัสเตอร์เชิงพื้นที่ของแอปพลิเคชันที่มีสัญญาณรบกวนตามความหนาแน่น)
DBSCAN จัดกลุ่มจุดข้อมูลเข้าด้วยกันตามเมตริกระยะทางและเกณฑ์สำหรับจำนวนจุดข้อมูลขั้นต่ำ ต้องใช้สองพารามิเตอร์ - eps และ จุดต่ำสุด Eps ระบุว่าจุดข้อมูลควรอยู่ใกล้แค่ไหนจึงจะถือว่าเป็นเพื่อนบ้าน เกณฑ์สำหรับคะแนนขั้นต่ำควรทำให้สมบูรณ์เพื่อพิจารณาว่าภูมิภาคนั้นเป็นภูมิภาคที่มีความหนาแน่นสูง
OPTICS (จุดสั่งซื้อเพื่อระบุโครงสร้างคลัสเตอร์)
กระบวนการนี้คล้ายกับ DBSCAN แต่มีข้อบกพร่องประการหนึ่งของอัลกอริธึมเดิม นั่นคือ ไม่สามารถสร้างคลัสเตอร์จากข้อมูลความหนาแน่นตามอำเภอใจได้ โดยจะพิจารณาพารามิเตอร์อีก 2 ตัว ได้แก่ ระยะแกนและระยะที่สามารถเข้าถึงได้ ระยะทางหลักบ่งชี้ว่าจุดข้อมูลที่พิจารณาว่าเป็นแกนหลักหรือไม่โดยการตั้งค่าต่ำสุดสำหรับจุดข้อมูลนั้น
ระยะทางที่เข้าถึงได้คือระยะแกนสูงสุดและค่าของตัววัดระยะทางที่ใช้สำหรับคำนวณระยะทางระหว่างจุดข้อมูลสองจุด สิ่งหนึ่งที่ต้องพิจารณาเกี่ยวกับระยะทางที่สามารถเข้าถึงได้คือ ค่าของมันยังไม่ถูกกำหนด หากจุดข้อมูลจุดใดจุดหนึ่งเป็นจุดหลัก
HDBSCAN (การจัดคลัสเตอร์เชิงพื้นที่ตามความหนาแน่นของแอปพลิเคชันที่มีสัญญาณรบกวน)
HDBSCAN คือวิธีการจัดกลุ่มตามความหนาแน่นที่ขยายวิธีการ DBSCAN โดยแปลงเป็นอัลกอริธึมการทำคลัสเตอร์แบบลำดับชั้น
การจัดกลุ่มแบบลำดับชั้น
กลุ่มคลัสเตอร์ตามลำดับชั้น (Agglomerative หรือเรียกอีกอย่างว่า Bottom-Up Approach) หรือแบ่ง (Divisive หรือเรียกอีกอย่างว่า Top-Down Approach) คลัสเตอร์ตามการวัดระยะทาง ในการจัดกลุ่มแบบ Agglomerative จุดข้อมูลแต่ละจุดจะทำหน้าที่เป็นคลัสเตอร์ในขั้นต้น จากนั้นจึงจัดกลุ่มคลัสเตอร์ทีละรายการ
การแตกแยกเป็นสิ่งที่ตรงกันข้ามกับ Agglomerative โดยเริ่มจากจุดทั้งหมดเป็นคลัสเตอร์เดียวและแบ่งออกเพื่อสร้างคลัสเตอร์เพิ่มเติม อัลกอริธึมเหล่านี้สร้างเมทริกซ์ระยะทางของคลัสเตอร์ที่มีอยู่ทั้งหมด และทำการเชื่อมโยงระหว่างคลัสเตอร์ตามเกณฑ์ของการเชื่อมโยง การจัดกลุ่มของจุดข้อมูลจะถูกแสดงโดยใช้ dendrogram มีการเชื่อมโยงหลายประเภท: –
o Single Linkage : – ใน single linkage ระยะห่างระหว่างสองคลัสเตอร์คือระยะทางที่สั้นที่สุดระหว่างจุดในทั้งสองคลัสเตอร์
o Complete Linkage : – ในการเชื่อมโยงที่สมบูรณ์ ระยะห่างระหว่างสองคลัสเตอร์คือระยะทางที่ไกลที่สุดระหว่างจุดในสองคลัสเตอร์นั้น
o การ เชื่อมโยงเฉลี่ย : – ในการเชื่อมโยงเฉลี่ยระยะห่างระหว่างสองคลัสเตอร์คือระยะทางเฉลี่ยของทุกจุดในคลัสเตอร์ที่มีทุกจุดในคลัสเตอร์อื่น
อ่าน: ตัวอย่างทั่วไปของการทำเหมืองข้อมูล
การจัดกลุ่มคลุมเครือ
ในการจัดกลุ่มแบบคลุมเครือ การกำหนดจุดข้อมูลในคลัสเตอร์ใดๆ จะไม่ชี้ขาด ที่นี่ จุดข้อมูลหนึ่งจุดสามารถอยู่ในคลัสเตอร์ได้มากกว่าหนึ่งคลัสเตอร์ จะให้ผลลัพธ์เป็นความน่าจะเป็นของจุดข้อมูลที่เป็นของแต่ละคลัสเตอร์ หนึ่งในอัลกอริทึมที่ใช้ในการจัดกลุ่มแบบคลุมเครือคือการจัดกลุ่มแบบฟัซซีหมายถึงการจัดกลุ่ม
อัลกอริธึมนี้คล้ายกับกระบวนการจัดกลุ่ม K-Means และแตกต่างกันในพารามิเตอร์ที่เกี่ยวข้องกับการคำนวณ เช่น fuzzifier และค่าสมาชิก
การแบ่งพาร์ติชันคลัสเตอร์
วิธีนี้เป็นหนึ่งในตัวเลือกยอดนิยมสำหรับนักวิเคราะห์ในการสร้างคลัสเตอร์ ในการแบ่งพาร์ติชันคลัสเตอร์ คลัสเตอร์จะถูกแบ่งพาร์ติชันตามลักษณะของจุดข้อมูล เราจำเป็นต้องระบุจำนวนคลัสเตอร์ที่จะสร้างสำหรับวิธีการจัดกลุ่มนี้ อัลกอริธึมการจัดกลุ่มเหล่านี้เป็นไปตามกระบวนการวนซ้ำเพื่อกำหนดจุดข้อมูลใหม่ระหว่างคลัสเตอร์ตามระยะทาง อัลกอริทึมที่อยู่ในหมวดหมู่นี้มีดังนี้: –

o K-Means Clustering: – การจัดกลุ่ม K-Means เป็นหนึ่งในอัลกอริธึมที่ใช้กันอย่างแพร่หลายมากที่สุด มันแบ่งจุดข้อมูลออกเป็น k คลัสเตอร์ตามการวัดระยะทางที่ใช้สำหรับการจัดกลุ่ม ค่าของ 'k' ถูกกำหนดโดยผู้ใช้ ระยะทางคำนวณระหว่างจุดข้อมูลและเซนทรอยด์ของกระจุก
จุดข้อมูลที่ใกล้กับเซนทรอยด์ของคลัสเตอร์มากที่สุดถูกกำหนดให้กับคลัสเตอร์นั้น หลังจากการวนซ้ำ มันจะคำนวณเซนทรอยด์ของคลัสเตอร์เหล่านั้นอีกครั้ง และกระบวนการจะดำเนินต่อไปจนกว่าจำนวนการวนซ้ำที่กำหนดไว้ล่วงหน้าจะเสร็จสิ้น หรือเมื่อเซนทรอยด์ของคลัสเตอร์ไม่เปลี่ยนแปลงหลังจากการวนซ้ำ
เป็นอัลกอริธึมที่มีราคาแพงมากในการคำนวณ เนื่องจากคำนวณระยะทางของจุดข้อมูลทุกจุดด้วยเซนทรอยด์ของคลัสเตอร์ทั้งหมดที่ทำซ้ำแต่ละครั้ง ทำให้ยากต่อการนำชุดข้อมูลขนาดใหญ่ไปใช้ในลักษณะเดียวกัน
PAM (การแบ่งพาร์ติชันรอบ Medoids)
อัลกอริทึมนี้เรียกอีกอย่างว่าอัลกอริทึม k-medoid กระบวนการนี้ยังคล้ายกันกับอัลกอริทึมการจัดกลุ่ม K-mean โดยมีความแตกต่างในการกำหนดศูนย์กลางของคลัสเตอร์ ใน PAM medoid ของคลัสเตอร์จะต้องเป็นจุดข้อมูลอินพุตในขณะที่สิ่งนี้ไม่เป็นความจริงสำหรับการจัดกลุ่ม K-mean เนื่องจากค่าเฉลี่ยของจุดข้อมูลทั้งหมดในคลัสเตอร์อาจไม่ได้อยู่ในจุดข้อมูลอินพุต
o CLARA (Clustering Large Applications) : – CLARA เป็นส่วนขยายของอัลกอริธึม PAM ซึ่งลดเวลาในการคำนวณเพื่อให้ทำงานได้ดีขึ้นสำหรับชุดข้อมูลขนาดใหญ่ เพื่อให้บรรลุสิ่งนี้ จะเลือกส่วนหนึ่งของข้อมูลตามอำเภอใจจากชุดข้อมูลทั้งหมดเพื่อเป็นตัวแทนของข้อมูลจริง ใช้อัลกอริธึม PAM กับตัวอย่างข้อมูลหลายตัวอย่างและเลือกคลัสเตอร์ที่ดีที่สุดจากการทำซ้ำหลายครั้ง
อ่านเพิ่มเติม: อัลกอริทึมการขุดข้อมูลที่คุณควรทราบ
การทำคลัสเตอร์ตามตาราง
ในการจัดกลุ่มตามกริด ชุดข้อมูลจะแสดงเป็นโครงสร้างกริดซึ่งประกอบด้วยกริด (หรือที่เรียกว่าเซลล์) วิธีการโดยรวมในอัลกอริธึมของวิธีนี้แตกต่างจากอัลกอริธึมที่เหลือ
พวกเขาสนใจพื้นที่ค่ารอบจุดข้อมูลมากกว่าจุดข้อมูลเอง ข้อดีอย่างหนึ่งของอัลกอริธึมเหล่านี้คือการลดความซับซ้อนในการคำนวณ สิ่งนี้ทำให้เหมาะสมสำหรับการจัดการกับชุดข้อมูลที่มีขนาดมหึมา
หลังจากแบ่งชุดข้อมูลออกเป็นเซลล์แล้ว จะคำนวณความหนาแน่นของเซลล์ซึ่งช่วยในการระบุคลัสเตอร์ อัลกอริธึมสองสามตัวที่ยึดตามการจัดกลุ่มตามกริดมีดังนี้: –
o STING (แนวทางตารางข้อมูลสถิติ) : – ใน STING ชุดข้อมูลจะถูกแบ่งแบบเรียกซ้ำตามลำดับชั้น แต่ละเซลล์จะถูกแบ่งย่อยเพิ่มเติมเป็นจำนวนเซลล์ที่แตกต่างกัน จะรวบรวมการวัดทางสถิติของเซลล์ซึ่งช่วยในการตอบคำถามในระยะเวลาอันสั้น
o WaveCluster : – ในอัลกอริธึมนี้ พื้นที่ข้อมูลจะแสดงในรูปของเวฟเล็ต พื้นที่ข้อมูลประกอบด้วยสัญญาณ n มิติซึ่งช่วยในการระบุคลัสเตอร์ ส่วนของสัญญาณที่มีความถี่ต่ำและแอมพลิจูดสูงแสดงว่าจุดข้อมูลมีความเข้มข้น ภูมิภาคเหล่านี้ถูกระบุว่าเป็นกลุ่มโดยอัลกอริทึม ส่วนของสัญญาณที่ความถี่สูงแสดงถึงขอบเขตของคลัสเตอร์ สำหรับรายละเอียดเพิ่มเติม โปรดดู เอกสาร นี้
o CLIQUE (การทำคลัสเตอร์ในภารกิจ) : – CLIQUE เป็นการผสมผสานระหว่างอัลกอริธึมการทำคลัสเตอร์แบบอิงความหนาแน่นและแบบกริด มันแบ่งพื้นที่ข้อมูลและระบุช่องว่างย่อยโดยใช้หลักการ Apriori ระบุคลัสเตอร์โดยการคำนวณความหนาแน่นของเซลล์
End Notes
ในบทความนี้ เราได้เห็นภาพรวมของคลัสเตอร์และวิธีการต่างๆ ของการจัดกลุ่มพร้อมกับตัวอย่าง บทความนี้จัดทำขึ้นเพื่อให้บริการคุณในการเริ่มต้นการทำคลัสเตอร์
วิธีการจัดกลุ่มเหล่านี้มีข้อดีและข้อเสียของตัวเองซึ่งจำกัดให้เหมาะสมกับชุดข้อมูลบางชุดเท่านั้น มันไม่ได้เป็นเพียงอัลกอริทึมเท่านั้น แต่ยังมีปัจจัยอื่นๆ อีกมาก เช่น ข้อกำหนดฮาร์ดแวร์ของเครื่อง ความซับซ้อนของอัลกอริทึม ฯลฯ ที่เข้ามาในรูปภาพเมื่อคุณทำการวิเคราะห์ชุดข้อมูล
ในฐานะนักวิเคราะห์ คุณต้องตัดสินใจว่าจะเลือกอัลกอริธึมใดและอัลกอริทึมใดจะให้ผลลัพธ์ที่ดีกว่าในสถานการณ์ที่กำหนด อัลกอริธึมเดียวที่เหมาะกับกลยุทธ์ทั้งหมดไม่สามารถใช้ได้กับปัญหาการเรียนรู้ของเครื่อง ดังนั้น ทำการทดลองต่อไปและทำให้มือของคุณสกปรกในโลกของคลัสเตอร์
หากคุณอยากรู้ที่จะเรียนรู้วิทยาศาสตร์ข้อมูล ลองดู IIIT-B และโปรแกรม Executive PG ของ upGrad ในสาขาวิทยาศาสตร์ข้อมูลซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ การประชุมเชิงปฏิบัติการเชิงปฏิบัติ การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ
วิธีการจัดกลุ่มประเภทต่าง ๆ ที่ใช้ในข่าวกรองธุรกิจคืออะไร?
การทำคลัสเตอร์เป็นเทคนิคที่ไม่มีทิศทางซึ่งใช้ในการขุดข้อมูลเพื่อระบุรูปแบบที่ซ่อนอยู่หลายอย่างในข้อมูลโดยไม่ต้องมีสมมติฐานเฉพาะใดๆ เหตุผลที่อยู่เบื้องหลังการใช้การจัดกลุ่มคือการระบุความคล้ายคลึงกันระหว่างวัตถุบางอย่างและสร้างกลุ่มของวัตถุที่คล้ายคลึงกัน
การทำคลัสเตอร์มีสองประเภทที่แตกต่างกัน ซึ่งเป็นวิธีแบบลำดับชั้นและแบบไม่มีลำดับชั้น
1. การทำคลัสเตอร์แบบไม่มีลำดับชั้น
ในวิธีนี้ ชุดข้อมูลที่มีวัตถุ N จะถูกแบ่งออกเป็นกลุ่ม M ในระบบธุรกิจอัจฉริยะ เทคนิคการจัดกลุ่มแบบไม่มีลำดับชั้นที่ใช้กันอย่างแพร่หลายมากที่สุดคือ K-mean
2. การจัดกลุ่มแบบลำดับชั้น
ในวิธีนี้ จะมีการสร้างชุดของคลัสเตอร์ที่ซ้อนกัน ในคลัสเตอร์ที่ซ้อนกันเหล่านี้ อ็อบเจ็กต์ทุกคู่จะถูกซ้อนเพิ่มเติมเพื่อสร้างคลัสเตอร์ขนาดใหญ่จนกว่าจะเหลือเพียงคลัสเตอร์เดียวในตอนท้าย
คลัสเตอร์ใช้เมื่อใด
หน้าที่หลักของการจัดกลุ่มคือการแบ่งส่วน ไม่ว่าจะเป็นร้านค้า ผลิตภัณฑ์ หรือลูกค้า ลูกค้าและผลิตภัณฑ์สามารถจัดกลุ่มเป็นกลุ่มตามลำดับชั้นตามแอตทริบิวต์ที่แตกต่างกัน
มีการใช้เทคนิคการจัดกลุ่มเพื่อตรวจจับความผิดปกติเช่นธุรกรรมการฉ้อโกง ที่นี่ คลัสเตอร์ที่มีธุรกรรมที่ดีทั้งหมดจะถูกตรวจพบและเก็บไว้เป็นตัวอย่าง นี้เรียกว่า คลัสเตอร์ปกติ เมื่อใดก็ตามที่มีบางอย่างผิดปกติจากคลัสเตอร์นี้ สิ่งนั้นจะอยู่ภายใต้ส่วนที่น่าสงสัย วิธีนี้พบว่ามีประโยชน์มากในการตรวจหาเซลล์ผิดปกติในร่างกาย
นอกจากนั้น การจัดกลุ่มยังใช้กันอย่างแพร่หลายในการทำลายชุดข้อมูลขนาดใหญ่เพื่อสร้างกลุ่มข้อมูลที่มีขนาดเล็กลง ซึ่งจะช่วยเพิ่มประสิทธิภาพในการประเมินข้อมูล
ข้อดีของการทำคลัสเตอร์คืออะไร?
การจัดกลุ่มมีประสิทธิภาพมากกว่าการสุ่มตัวอย่างข้อมูลที่กำหนดเนื่องจากสาเหตุหลายประการ ข้อดีหลักสองประการของการจัดกลุ่มคือ:
1. ต้องการทรัพยากรน้อยลง
คลัสเตอร์สร้างกลุ่มของทรัพยากรน้อยลงจากตัวอย่างทั้งหมด ด้วยเหตุนี้จึงมีความต้องการทรัพยากรน้อยกว่าเมื่อเปรียบเทียบกับการสุ่มตัวอย่าง การสุ่มตัวอย่างจะต้องเสียค่าใช้จ่ายในการเดินทางและการบริหาร แต่นี่ไม่ใช่กรณีที่นี่
2. ตัวเลือกที่เป็นไปได้
ที่นี่ ทุกคลัสเตอร์กำหนดกลุ่มประชากรทั้งหมด เนื่องจากกลุ่มที่เป็นเนื้อเดียวกันถูกสร้างขึ้นจากประชากรทั้งหมด ด้วยเหตุนี้ การรวมวิชาต่างๆ ในการศึกษาเดียวจึงกลายเป็นเรื่องง่าย