การวิเคราะห์คลัสเตอร์ในการทำเหมืองข้อมูล: แอปพลิเคชัน วิธีการ และข้อกำหนด

เผยแพร่แล้ว: 2020-01-20

เราจะพูดถึง Cluster Analysis ใน Data Mining อันดับแรก แจ้งให้เราทราบว่าคลัสเตอร์คืออะไรในการทำเหมืองข้อมูล จากนั้นจึงแนะนำและความจำเป็นในการจัดกลุ่มในการทำเหมืองข้อมูล เราจะพูดถึงอัลกอริธึมและแอปพลิเคชันของการวิเคราะห์คลัสเตอร์ในวิทยาศาสตร์ข้อมูลด้วย ต่อมาเราจะเรียนรู้เกี่ยวกับวิธีการต่างๆ ในการวิเคราะห์คลัสเตอร์และวิธีการจัดกลุ่มการทำเหมืองข้อมูล

สารบัญ

Clustering ใน Data Mining คืออะไร?
- การวิเคราะห์คลัสเตอร์ในการขุดข้อมูลคืออะไร
การประยุกต์ใช้การวิเคราะห์คลัสเตอร์การทำเหมืองข้อมูล
ข้อกำหนดของการทำคลัสเตอร์ในเหมืองข้อมูล
วิธีการทำคลัสเตอร์การทำเหมืองข้อมูล
- 1. วิธีการจัดกลุ่มการแบ่งพาร์ติชัน
- 2. วิธีการจัดกลุ่มแบบลำดับชั้น
- 3. วิธีการจัดกลุ่มตามความหนาแน่น
- 4. วิธีการจัดกลุ่มตามตาราง
- 5. วิธีการจัดกลุ่มตามแบบจำลอง
- 6. วิธีการจัดกลุ่มตามข้อจำกัด
การจำแนกประเภทใดที่ไม่ถือว่าเป็นการวิเคราะห์คลัสเตอร์
บทสรุป
ข้อเสียของการวิเคราะห์คลัสเตอร์คืออะไร
ความบริสุทธิ์ของคลัสเตอร์และคุณภาพของคลัสเตอร์คำนวณอย่างไร
อะไรคือความแตกต่างระหว่าง K-mean และ K-medoids?

Clustering ใน Data Mining คืออะไร?

ในการจัดกลุ่ม กลุ่มของออบเจ็กต์ข้อมูลต่างๆ จะถูกจัดประเภทเป็นออบเจ็กต์ที่คล้ายคลึงกัน กลุ่มหนึ่งหมายถึงกลุ่มของข้อมูล ชุดข้อมูลแบ่งออกเป็นกลุ่มต่างๆ ในการวิเคราะห์คลัสเตอร์ ซึ่งอิงตามความคล้ายคลึงกันของข้อมูล หลังจากการจำแนกข้อมูลออกเป็นกลุ่มต่างๆ ป้ายกำกับจะถูกกำหนดให้กับกลุ่ม ช่วยในการปรับให้เข้ากับการเปลี่ยนแปลงโดยการจัดหมวดหมู่

อ่าน: ตัวอย่างทั่วไปของการทำเหมืองข้อมูล

การวิเคราะห์คลัสเตอร์ในการขุดข้อมูลคืออะไร

การวิเคราะห์คลัสเตอร์ใน Data Mining หมายความว่า การค้นหากลุ่มของออบเจ็กต์ที่มีความคล้ายคลึงกันในกลุ่ม แต่แตกต่างจากออบเจ็กต์ในกลุ่มอื่น

การประยุกต์ใช้การวิเคราะห์คลัสเตอร์การทำเหมืองข้อมูล

การวิเคราะห์การจัดกลุ่มข้อมูลมีประโยชน์หลายอย่าง เช่น การประมวลผลภาพ การวิเคราะห์ข้อมูล การจดจำรูปแบบ การวิจัยตลาด และอื่นๆ อีกมากมาย การใช้ Data Clustering ทำให้บริษัทต่างๆ สามารถค้นพบกลุ่มใหม่ๆ ในฐานข้อมูลของลูกค้าได้ การจำแนกข้อมูลสามารถทำได้ตามรูปแบบการจัดซื้อ

การทำคลัสเตอร์ใน Data Mining ช่วยในการจำแนกสัตว์และพืชโดยใช้ฟังก์ชันหรือยีนที่คล้ายคลึงกันในด้านชีววิทยา ช่วยในการทำความเข้าใจโครงสร้างของสายพันธุ์ มีการระบุพื้นที่โดยใช้การจัดกลุ่มในการทำเหมืองข้อมูล ในฐานข้อมูลการสังเกตโลก ระบุที่ดินที่มีความคล้ายคลึงกัน

ตามที่ตั้งทางภูมิศาสตร์ มูลค่า และประเภทบ้าน กลุ่มของบ้านถูกกำหนดในเมือง การจัดกลุ่มในการทำเหมืองข้อมูลช่วยในการค้นพบข้อมูลโดยการจัดประเภทไฟล์บนอินเทอร์เน็ต นอกจากนี้ยังใช้ในแอปพลิเคชันการตรวจจับ สามารถตรวจจับการฉ้อโกงในบัตรเครดิตได้อย่างง่ายดายโดยใช้การจัดกลุ่มในการทำเหมืองข้อมูลซึ่งวิเคราะห์รูปแบบการหลอกลวง อ่านเพิ่มเติมเกี่ยวกับการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในอุตสาหกรรมการเงิน

ช่วยในการทำความเข้าใจแต่ละคลัสเตอร์และลักษณะของมัน เราสามารถเข้าใจวิธีการกระจายข้อมูล และทำงานเป็นเครื่องมือในหน้าที่ของการทำเหมืองข้อมูล

ข้อกำหนดของการทำคลัสเตอร์ในเหมืองข้อมูล

การตีความ

ผลลัพธ์ของการจัดกลุ่มควรใช้งานได้ เข้าใจได้ และตีความได้

ช่วยในการจัดการกับข้อมูลที่ยุ่งเหยิง

โดยปกติ ข้อมูลจะยุ่งเหยิงและไม่มีโครงสร้าง ไม่สามารถวิเคราะห์ได้อย่างรวดเร็ว และนั่นคือสาเหตุที่การจัดกลุ่มข้อมูลมีความสำคัญมากในการทำเหมืองข้อมูล การจัดกลุ่มสามารถกำหนดโครงสร้างบางอย่างให้กับข้อมูลได้โดยการจัดระเบียบให้เป็นกลุ่มของวัตถุข้อมูลที่คล้ายกัน ผู้เชี่ยวชาญด้านข้อมูลจะสะดวกยิ่งขึ้นในการประมวลผลข้อมูลและค้นพบสิ่งใหม่ๆ

มิติสูง

การจัดกลุ่มข้อมูลยังสามารถจัดการข้อมูลที่มีมิติสูงควบคู่ไปกับข้อมูลขนาดเล็กได้

มีการค้นพบคลัสเตอร์รูปร่างแอตทริบิวต์

ตรวจพบคลัสเตอร์รูปร่างโดยพลการโดยใช้อัลกอริทึมของการจัดกลุ่ม นอกจากนี้ยังสามารถพบกระจุกขนาดเล็กที่มีรูปทรงกลมได้

การใช้งานอัลกอริธึมกับข้อมูลหลายประเภท

ข้อมูลหลายประเภทสามารถใช้กับอัลกอริธึมของคลัสเตอร์ได้ ข้อมูลสามารถเป็นเหมือนข้อมูลไบนารี ข้อมูลตามหมวดหมู่และตามช่วงเวลา

อ่าน: อัลกอริธึมการขุดข้อมูลที่คุณควรทราบ

ความสามารถในการปรับขนาดคลัสเตอร์

ฐานข้อมูลมักจะมีขนาดใหญ่มากในการจัดการ อัลกอริทึมควรปรับขนาดได้เพื่อจัดการฐานข้อมูลขนาดใหญ่ ดังนั้นจึงจำเป็นต้องปรับขนาดได้

วิธีการทำคลัสเตอร์การทำเหมืองข้อมูล

1. วิธีการจัดกลุ่มการแบ่งพาร์ติชัน

ในวิธีนี้ ให้เราบอกว่าพาร์ทิชัน "m" เสร็จสิ้นบนออบเจ็กต์ "p" ของฐานข้อมูล คลัสเตอร์จะถูกแสดงโดยแต่ละพาร์ติชั่นและ m < p. K คือจำนวนกลุ่มหลังจากการจำแนกวัตถุ มีข้อกำหนดบางประการที่ต้องเป็นไปตามวิธีการทำคลัสเตอร์พาร์ติชันนี้: –

วัตถุประสงค์หนึ่งควรอยู่ในกลุ่มเดียวเท่านั้น
ไม่ควรมีกลุ่มใดที่ไม่มีจุดประสงค์แม้แต่อย่างเดียว

มีบางจุดที่ควรจดจำในวิธีการแบ่งพาร์ติชันคลัสเตอร์ประเภทนี้ ได้แก่:

จะมีการแบ่งพาร์ติชันเริ่มต้นถ้าเราให้ไม่อยู่แล้ว ของพาร์ติชัน (พูด ม.)
มีเทคนิคหนึ่งที่เรียกว่า iterative relocation ซึ่งหมายความว่าวัตถุจะถูกย้ายจากกลุ่มหนึ่งไปยังอีกกลุ่มหนึ่งเพื่อปรับปรุงการแบ่งพาร์ติชัน

2. วิธีการจัดกลุ่มแบบลำดับชั้น

ในวิธีการจัดกลุ่มตามลำดับชั้นนี้ ชุดของออบเจ็กต์ของข้อมูลที่กำหนดจะถูกสร้างขึ้นในรูปแบบการสลายตัวแบบลำดับชั้น การก่อตัวของการสลายตัวแบบลำดับชั้นจะกำหนดวัตถุประสงค์ของการจำแนกประเภท มีสองแนวทางในการสร้างการสลายตัวแบบลำดับชั้น ได้แก่: –

1. แนวทางการแบ่งแยก

อีกชื่อหนึ่งสำหรับแนวทางการแบ่งแยกคือวิธีการจากบนลงล่าง ที่จุดเริ่มต้นของวิธีนี้ ออบเจ็กต์ข้อมูลทั้งหมดจะถูกเก็บไว้ในคลัสเตอร์เดียวกัน คลัสเตอร์ที่เล็กกว่าถูกสร้างขึ้นโดยการแบ่งกลุ่มโดยใช้การวนซ้ำอย่างต่อเนื่อง วิธีการวนซ้ำอย่างต่อเนื่องจะดำเนินต่อไปจนกว่าจะตรงตามเงื่อนไขของการสิ้นสุด ไม่สามารถยกเลิกได้หลังจากแยกหรือรวมกลุ่มแล้ว และนั่นคือสาเหตุที่วิธีนี้ไม่ยืดหยุ่นนัก

2. แนวทางการรวมกลุ่ม

อีกชื่อหนึ่งสำหรับแนวทางนี้คือแนวทางจากล่างขึ้นบน ทุกกลุ่มจะแยกจากกันในตอนเริ่มต้น จากนั้นจะรวมต่อไปจนกว่ากลุ่มทั้งหมดจะถูกรวมเข้าด้วยกัน หรือตรงตามเงื่อนไขของการสิ้นสุด

มีสองวิธีที่สามารถนำมาใช้ในการปรับปรุงคุณภาพคลัสเตอร์แบบลำดับชั้นในการทำเหมืองข้อมูล ได้แก่: –

เราควรวิเคราะห์การเชื่อมโยงของอ็อบเจ็กต์อย่างรอบคอบในทุกการแบ่งพาร์ติชันของคลัสเตอร์แบบลำดับชั้น
สามารถใช้อัลกอริธึม agglomerative แบบลำดับชั้นสำหรับการรวมการรวมตัวกันตามลำดับชั้น ในแนวทางนี้ อันดับแรก วัตถุจะถูกจัดกลุ่มเป็นกลุ่มย่อย หลังจากจัดกลุ่มออบเจ็กต์ข้อมูลเป็นไมโครคลัสเตอร์แล้ว คลัสเตอร์แมโครจะดำเนินการบนไมโครคลัสเตอร์

3. วิธีการจัดกลุ่มตามความหนาแน่น

ในวิธีการจัดกลุ่มใน Data Mining นี้ ความหนาแน่นคือจุดสนใจหลัก แนวคิดเรื่องมวลใช้เป็นพื้นฐานสำหรับวิธีการจัดกลุ่มนี้ ในวิธีการจัดกลุ่มนี้ คลัสเตอร์จะเติบโตอย่างต่อเนื่อง ควรมีจุดอย่างน้อยหนึ่งจุดในรัศมีของกลุ่มสำหรับแต่ละจุดข้อมูล

4. วิธีการจัดกลุ่มตามตาราง

ใน Grid-Based Clustering Method ประเภทนี้ กริดจะถูกสร้างขึ้นโดยใช้อ็อบเจกต์ร่วมกัน โครงสร้างกริดถูกสร้างขึ้นโดยการหาปริมาณพื้นที่วัตถุเป็นจำนวนเซลล์ที่จำกัด

ข้อดีของวิธีการจัดกลุ่มแบบ Grid-based: –

เวลาประมวลผลเร็วขึ้น: เวลาประมวลผลของวิธีนี้เร็วกว่าวิธีอื่นมาก จึงสามารถประหยัดเวลาได้
วิธีนี้ขึ้นอยู่กับจำนวน ของเซลล์ในปริภูมิแต่ละมิติ

5. วิธีการจัดกลุ่มตามแบบจำลอง

ในวิธีการจัดคลัสเตอร์ประเภทนี้ ทุกคลัสเตอร์จะถูกตั้งสมมติฐานเพื่อให้สามารถหาข้อมูลที่เหมาะสมที่สุดสำหรับโมเดล ฟังก์ชันความหนาแน่นถูกจัดกลุ่มเพื่อค้นหากลุ่มในวิธีนี้

6. วิธีการจัดกลุ่มตามข้อจำกัด

แอปพลิเคชันหรือข้อจำกัดที่มุ่งเน้นผู้ใช้ถูกรวมไว้เพื่อดำเนินการจัดกลุ่ม ความคาดหวังของผู้ใช้เรียกว่าข้อจำกัด ในกระบวนการจัดกลุ่มนี้ การสื่อสารมีการโต้ตอบกันอย่างมาก ซึ่งมีให้โดยข้อจำกัด

การจำแนกประเภทใดที่ไม่ถือว่าเป็นการวิเคราะห์คลัสเตอร์

การ แบ่งพาร์ทิชันกราฟ – ประเภทของการจัดประเภทที่พื้นที่ไม่เหมือนกันและจัดประเภทตามการทำงานร่วมกันและความเกี่ยวข้องเท่านั้นไม่ใช่การวิเคราะห์แบบคลัสเตอร์
ผลลัพธ์ของแบบสอบถาม – ในการจัดประเภทประเภทนี้ กลุ่มจะถูกสร้างขึ้นตามข้อกำหนดที่กำหนดจากแหล่งภายนอก ไม่นับเป็นการวิเคราะห์คลัสเตอร์
การแบ่ง กลุ่มอย่างง่าย – การแบ่งชื่อออกเป็นกลุ่มต่าง ๆ ของการลงทะเบียนตามนามสกุลไม่เข้าข่ายเป็น Cluster Analysis
การจัดประเภทภายใต้ การดูแล – ประเภทของการจัดประเภทที่จัดประเภทโดยใช้ข้อมูลฉลากไม่สามารถพูดได้ว่าเป็นการวิเคราะห์คลัสเตอร์เนื่องจากการวิเคราะห์คลัสเตอร์เกี่ยวข้องกับกลุ่มตามรูปแบบ

บทสรุป

ตอนนี้เราได้เรียนรู้หลายสิ่งหลายอย่างเกี่ยวกับ Data Clustering เช่น วิธีการและวิธีการของ Data Clustering และ Cluster Analysis ใน Data Mining

หากคุณอยากรู้ที่จะเรียนรู้วิทยาศาสตร์ข้อมูล ลองดู IIIT-B และโปรแกรม Executive PG ของ upGrad ในสาขาวิทยาศาสตร์ข้อมูลซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ การประชุมเชิงปฏิบัติการเชิงปฏิบัติ การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ข้อเสียของการวิเคราะห์คลัสเตอร์คืออะไร

การวิเคราะห์คลัสเตอร์เป็นวิธีการทางสถิติที่สันนิษฐานว่าไม่มีความรู้ล่วงหน้าเกี่ยวกับตลาดหรือพฤติกรรมของลูกค้า วิธีการวิเคราะห์คลัสเตอร์บางวิธีทำให้เกิดข้อค้นพบที่แตกต่างกันบ้างในแต่ละครั้งที่มีการวิเคราะห์ทางสถิติ สิ่งนี้สามารถเกิดขึ้นได้เนื่องจากไม่มีวิธีการวิเคราะห์ข้อมูลแบบเดียวขนาดเดียว การเปลี่ยนเอาต์พุตข้อมูลอาจสร้างความสับสนและสร้างความรำคาญให้กับนักเรียนที่ยังใหม่ต่อแนวคิดของการวิเคราะห์คลัสเตอร์

ความบริสุทธิ์ของคลัสเตอร์และคุณภาพของคลัสเตอร์คำนวณอย่างไร

เราคูณจำนวนจุดข้อมูลทั้งหมดด้วยจำนวนป้ายกำกับคลาสที่ถูกต้องในแต่ละคลัสเตอร์ ความบริสุทธิ์เพิ่มขึ้นเมื่อจำนวนคลัสเตอร์เพิ่มขึ้นโดยทั่วไป หากเรามีแบบจำลองที่จัดระเบียบการสังเกตแต่ละรายการออกเป็นคลัสเตอร์ของตัวเอง ตัวอย่างเช่น ความบริสุทธิ์จะกลายเป็นหนึ่งเดียว เราอาจคำนวณค่าสัมประสิทธิ์ภาพเงาเฉลี่ยของวัตถุทั้งหมดในคลัสเตอร์เพื่อกำหนดความเหมาะสมภายในคลัสเตอร์ ค่าสัมประสิทธิ์ภาพเงาเฉลี่ยของออบเจ็กต์ทั้งหมดในชุดข้อมูลอาจใช้เพื่อประเมินคุณภาพของการจัดกลุ่ม

อะไรคือความแตกต่างระหว่าง K-mean และ K-medoids?

K-mean พยายามลดข้อผิดพลาดกำลังสองทั้งหมด ในขณะที่ k-medoids พยายามลดผลรวมของความไม่เหมือนกันระหว่างจุดที่จัดอยู่ในคลัสเตอร์และจุดที่เลือกให้เป็นศูนย์กลางของคลัสเตอร์ อัลกอริธึม k-medoids ต่างจากวิธี k-mean จะเลือกจุดข้อมูลเป็นศูนย์กลาง ( medoids หรือ exemplars)