การวิเคราะห์คลัสเตอร์ในการทำเหมืองข้อมูล: แอปพลิเคชัน วิธีการ และข้อกำหนด
เผยแพร่แล้ว: 2020-01-20เราจะพูดถึง Cluster Analysis ใน Data Mining อันดับแรก แจ้งให้เราทราบว่าคลัสเตอร์คืออะไรในการทำเหมืองข้อมูล จากนั้นจึงแนะนำและความจำเป็นในการจัดกลุ่มในการทำเหมืองข้อมูล เราจะพูดถึงอัลกอริธึมและแอปพลิเคชันของการวิเคราะห์คลัสเตอร์ในวิทยาศาสตร์ข้อมูลด้วย ต่อมาเราจะเรียนรู้เกี่ยวกับวิธีการต่างๆ ในการวิเคราะห์คลัสเตอร์และวิธีการจัดกลุ่มการทำเหมืองข้อมูล
สารบัญ
Clustering ใน Data Mining คืออะไร?
ในการจัดกลุ่ม กลุ่มของออบเจ็กต์ข้อมูลต่างๆ จะถูกจัดประเภทเป็นออบเจ็กต์ที่คล้ายคลึงกัน กลุ่มหนึ่งหมายถึงกลุ่มของข้อมูล ชุดข้อมูลแบ่งออกเป็นกลุ่มต่างๆ ในการวิเคราะห์คลัสเตอร์ ซึ่งอิงตามความคล้ายคลึงกันของข้อมูล หลังจากการจำแนกข้อมูลออกเป็นกลุ่มต่างๆ ป้ายกำกับจะถูกกำหนดให้กับกลุ่ม ช่วยในการปรับให้เข้ากับการเปลี่ยนแปลงโดยการจัดหมวดหมู่
อ่าน: ตัวอย่างทั่วไปของการทำเหมืองข้อมูล
การวิเคราะห์คลัสเตอร์ในการขุดข้อมูลคืออะไร
การวิเคราะห์คลัสเตอร์ใน Data Mining หมายความว่า การค้นหากลุ่มของออบเจ็กต์ที่มีความคล้ายคลึงกันในกลุ่ม แต่แตกต่างจากออบเจ็กต์ในกลุ่มอื่น
การประยุกต์ใช้การวิเคราะห์คลัสเตอร์การทำเหมืองข้อมูล
การวิเคราะห์การจัดกลุ่มข้อมูลมีประโยชน์หลายอย่าง เช่น การประมวลผลภาพ การวิเคราะห์ข้อมูล การจดจำรูปแบบ การวิจัยตลาด และอื่นๆ อีกมากมาย การใช้ Data Clustering ทำให้บริษัทต่างๆ สามารถค้นพบกลุ่มใหม่ๆ ในฐานข้อมูลของลูกค้าได้ การจำแนกข้อมูลสามารถทำได้ตามรูปแบบการจัดซื้อ
การทำคลัสเตอร์ใน Data Mining ช่วยในการจำแนกสัตว์และพืชโดยใช้ฟังก์ชันหรือยีนที่คล้ายคลึงกันในด้านชีววิทยา ช่วยในการทำความเข้าใจโครงสร้างของสายพันธุ์ มีการระบุพื้นที่โดยใช้การจัดกลุ่มในการทำเหมืองข้อมูล ในฐานข้อมูลการสังเกตโลก ระบุที่ดินที่มีความคล้ายคลึงกัน
ตามที่ตั้งทางภูมิศาสตร์ มูลค่า และประเภทบ้าน กลุ่มของบ้านถูกกำหนดในเมือง การจัดกลุ่มในการทำเหมืองข้อมูลช่วยในการค้นพบข้อมูลโดยการจัดประเภทไฟล์บนอินเทอร์เน็ต นอกจากนี้ยังใช้ในแอปพลิเคชันการตรวจจับ สามารถตรวจจับการฉ้อโกงในบัตรเครดิตได้อย่างง่ายดายโดยใช้การจัดกลุ่มในการทำเหมืองข้อมูลซึ่งวิเคราะห์รูปแบบการหลอกลวง อ่านเพิ่มเติมเกี่ยวกับการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในอุตสาหกรรมการเงิน
ช่วยในการทำความเข้าใจแต่ละคลัสเตอร์และลักษณะของมัน เราสามารถเข้าใจวิธีการกระจายข้อมูล และทำงานเป็นเครื่องมือในหน้าที่ของการทำเหมืองข้อมูล
ข้อกำหนดของการทำคลัสเตอร์ในเหมืองข้อมูล
- การตีความ
ผลลัพธ์ของการจัดกลุ่มควรใช้งานได้ เข้าใจได้ และตีความได้
- ช่วยในการจัดการกับข้อมูลที่ยุ่งเหยิง
โดยปกติ ข้อมูลจะยุ่งเหยิงและไม่มีโครงสร้าง ไม่สามารถวิเคราะห์ได้อย่างรวดเร็ว และนั่นคือสาเหตุที่การจัดกลุ่มข้อมูลมีความสำคัญมากในการทำเหมืองข้อมูล การจัดกลุ่มสามารถกำหนดโครงสร้างบางอย่างให้กับข้อมูลได้โดยการจัดระเบียบให้เป็นกลุ่มของวัตถุข้อมูลที่คล้ายกัน ผู้เชี่ยวชาญด้านข้อมูลจะสะดวกยิ่งขึ้นในการประมวลผลข้อมูลและค้นพบสิ่งใหม่ๆ
- มิติสูง
การจัดกลุ่มข้อมูลยังสามารถจัดการข้อมูลที่มีมิติสูงควบคู่ไปกับข้อมูลขนาดเล็กได้
- มีการค้นพบคลัสเตอร์รูปร่างแอตทริบิวต์
ตรวจพบคลัสเตอร์รูปร่างโดยพลการโดยใช้อัลกอริทึมของการจัดกลุ่ม นอกจากนี้ยังสามารถพบกระจุกขนาดเล็กที่มีรูปทรงกลมได้
- การใช้งานอัลกอริธึมกับข้อมูลหลายประเภท
ข้อมูลหลายประเภทสามารถใช้กับอัลกอริธึมของคลัสเตอร์ได้ ข้อมูลสามารถเป็นเหมือนข้อมูลไบนารี ข้อมูลตามหมวดหมู่และตามช่วงเวลา
อ่าน: อัลกอริธึมการขุดข้อมูลที่คุณควรทราบ
- ความสามารถในการปรับขนาดคลัสเตอร์
ฐานข้อมูลมักจะมีขนาดใหญ่มากในการจัดการ อัลกอริทึมควรปรับขนาดได้เพื่อจัดการฐานข้อมูลขนาดใหญ่ ดังนั้นจึงจำเป็นต้องปรับขนาดได้
วิธีการทำคลัสเตอร์การทำเหมืองข้อมูล
1. วิธีการจัดกลุ่มการแบ่งพาร์ติชัน
ในวิธีนี้ ให้เราบอกว่าพาร์ทิชัน "m" เสร็จสิ้นบนออบเจ็กต์ "p" ของฐานข้อมูล คลัสเตอร์จะถูกแสดงโดยแต่ละพาร์ติชั่นและ m < p. K คือจำนวนกลุ่มหลังจากการจำแนกวัตถุ มีข้อกำหนดบางประการที่ต้องเป็นไปตามวิธีการทำคลัสเตอร์พาร์ติชันนี้: –
- วัตถุประสงค์หนึ่งควรอยู่ในกลุ่มเดียวเท่านั้น
- ไม่ควรมีกลุ่มใดที่ไม่มีจุดประสงค์แม้แต่อย่างเดียว
มีบางจุดที่ควรจดจำในวิธีการแบ่งพาร์ติชันคลัสเตอร์ประเภทนี้ ได้แก่:
- จะมีการแบ่งพาร์ติชันเริ่มต้นถ้าเราให้ไม่อยู่แล้ว ของพาร์ติชัน (พูด ม.)
- มีเทคนิคหนึ่งที่เรียกว่า iterative relocation ซึ่งหมายความว่าวัตถุจะถูกย้ายจากกลุ่มหนึ่งไปยังอีกกลุ่มหนึ่งเพื่อปรับปรุงการแบ่งพาร์ติชัน
2. วิธีการจัดกลุ่มแบบลำดับชั้น
ในวิธีการจัดกลุ่มตามลำดับชั้นนี้ ชุดของออบเจ็กต์ของข้อมูลที่กำหนดจะถูกสร้างขึ้นในรูปแบบการสลายตัวแบบลำดับชั้น การก่อตัวของการสลายตัวแบบลำดับชั้นจะกำหนดวัตถุประสงค์ของการจำแนกประเภท มีสองแนวทางในการสร้างการสลายตัวแบบลำดับชั้น ได้แก่: –

1. แนวทางการแบ่งแยก
อีกชื่อหนึ่งสำหรับแนวทางการแบ่งแยกคือวิธีการจากบนลงล่าง ที่จุดเริ่มต้นของวิธีนี้ ออบเจ็กต์ข้อมูลทั้งหมดจะถูกเก็บไว้ในคลัสเตอร์เดียวกัน คลัสเตอร์ที่เล็กกว่าถูกสร้างขึ้นโดยการแบ่งกลุ่มโดยใช้การวนซ้ำอย่างต่อเนื่อง วิธีการวนซ้ำอย่างต่อเนื่องจะดำเนินต่อไปจนกว่าจะตรงตามเงื่อนไขของการสิ้นสุด ไม่สามารถยกเลิกได้หลังจากแยกหรือรวมกลุ่มแล้ว และนั่นคือสาเหตุที่วิธีนี้ไม่ยืดหยุ่นนัก
2. แนวทางการรวมกลุ่ม
อีกชื่อหนึ่งสำหรับแนวทางนี้คือแนวทางจากล่างขึ้นบน ทุกกลุ่มจะแยกจากกันในตอนเริ่มต้น จากนั้นจะรวมต่อไปจนกว่ากลุ่มทั้งหมดจะถูกรวมเข้าด้วยกัน หรือตรงตามเงื่อนไขของการสิ้นสุด
มีสองวิธีที่สามารถนำมาใช้ในการปรับปรุงคุณภาพคลัสเตอร์แบบลำดับชั้นในการทำเหมืองข้อมูล ได้แก่: –
- เราควรวิเคราะห์การเชื่อมโยงของอ็อบเจ็กต์อย่างรอบคอบในทุกการแบ่งพาร์ติชันของคลัสเตอร์แบบลำดับชั้น
- สามารถใช้อัลกอริธึม agglomerative แบบลำดับชั้นสำหรับการรวมการรวมตัวกันตามลำดับชั้น ในแนวทางนี้ อันดับแรก วัตถุจะถูกจัดกลุ่มเป็นกลุ่มย่อย หลังจากจัดกลุ่มออบเจ็กต์ข้อมูลเป็นไมโครคลัสเตอร์แล้ว คลัสเตอร์แมโครจะดำเนินการบนไมโครคลัสเตอร์
3. วิธีการจัดกลุ่มตามความหนาแน่น
ในวิธีการจัดกลุ่มใน Data Mining นี้ ความหนาแน่นคือจุดสนใจหลัก แนวคิดเรื่องมวลใช้เป็นพื้นฐานสำหรับวิธีการจัดกลุ่มนี้ ในวิธีการจัดกลุ่มนี้ คลัสเตอร์จะเติบโตอย่างต่อเนื่อง ควรมีจุดอย่างน้อยหนึ่งจุดในรัศมีของกลุ่มสำหรับแต่ละจุดข้อมูล
4. วิธีการจัดกลุ่มตามตาราง
ใน Grid-Based Clustering Method ประเภทนี้ กริดจะถูกสร้างขึ้นโดยใช้อ็อบเจกต์ร่วมกัน โครงสร้างกริดถูกสร้างขึ้นโดยการหาปริมาณพื้นที่วัตถุเป็นจำนวนเซลล์ที่จำกัด
ข้อดีของวิธีการจัดกลุ่มแบบ Grid-based: –
- เวลาประมวลผลเร็วขึ้น: เวลาประมวลผลของวิธีนี้เร็วกว่าวิธีอื่นมาก จึงสามารถประหยัดเวลาได้
- วิธีนี้ขึ้นอยู่กับจำนวน ของเซลล์ในปริภูมิแต่ละมิติ
5. วิธีการจัดกลุ่มตามแบบจำลอง
ในวิธีการจัดคลัสเตอร์ประเภทนี้ ทุกคลัสเตอร์จะถูกตั้งสมมติฐานเพื่อให้สามารถหาข้อมูลที่เหมาะสมที่สุดสำหรับโมเดล ฟังก์ชันความหนาแน่นถูกจัดกลุ่มเพื่อค้นหากลุ่มในวิธีนี้
6. วิธีการจัดกลุ่มตามข้อจำกัด
แอปพลิเคชันหรือข้อจำกัดที่มุ่งเน้นผู้ใช้ถูกรวมไว้เพื่อดำเนินการจัดกลุ่ม ความคาดหวังของผู้ใช้เรียกว่าข้อจำกัด ในกระบวนการจัดกลุ่มนี้ การสื่อสารมีการโต้ตอบกันอย่างมาก ซึ่งมีให้โดยข้อจำกัด
การจำแนกประเภทใดที่ไม่ถือว่าเป็นการวิเคราะห์คลัสเตอร์
- การ แบ่งพาร์ทิชันกราฟ – ประเภทของการจัดประเภทที่พื้นที่ไม่เหมือนกันและจัดประเภทตามการทำงานร่วมกันและความเกี่ยวข้องเท่านั้นไม่ใช่การวิเคราะห์แบบคลัสเตอร์
- ผลลัพธ์ของแบบสอบถาม – ในการจัดประเภทประเภทนี้ กลุ่มจะถูกสร้างขึ้นตามข้อกำหนดที่กำหนดจากแหล่งภายนอก ไม่นับเป็นการวิเคราะห์คลัสเตอร์
- การแบ่ง กลุ่มอย่างง่าย – การแบ่งชื่อออกเป็นกลุ่มต่าง ๆ ของการลงทะเบียนตามนามสกุลไม่เข้าข่ายเป็น Cluster Analysis
- การจัดประเภทภายใต้ การดูแล – ประเภทของการจัดประเภทที่จัดประเภทโดยใช้ข้อมูลฉลากไม่สามารถพูดได้ว่าเป็นการวิเคราะห์คลัสเตอร์เนื่องจากการวิเคราะห์คลัสเตอร์เกี่ยวข้องกับกลุ่มตามรูปแบบ
บทสรุป
ตอนนี้เราได้เรียนรู้หลายสิ่งหลายอย่างเกี่ยวกับ Data Clustering เช่น วิธีการและวิธีการของ Data Clustering และ Cluster Analysis ใน Data Mining
หากคุณอยากรู้ที่จะเรียนรู้วิทยาศาสตร์ข้อมูล ลองดู IIIT-B และโปรแกรม Executive PG ของ upGrad ในสาขาวิทยาศาสตร์ข้อมูลซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ การประชุมเชิงปฏิบัติการเชิงปฏิบัติ การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ
ข้อเสียของการวิเคราะห์คลัสเตอร์คืออะไร
การวิเคราะห์คลัสเตอร์เป็นวิธีการทางสถิติที่สันนิษฐานว่าไม่มีความรู้ล่วงหน้าเกี่ยวกับตลาดหรือพฤติกรรมของลูกค้า วิธีการวิเคราะห์คลัสเตอร์บางวิธีทำให้เกิดข้อค้นพบที่แตกต่างกันบ้างในแต่ละครั้งที่มีการวิเคราะห์ทางสถิติ สิ่งนี้สามารถเกิดขึ้นได้เนื่องจากไม่มีวิธีการวิเคราะห์ข้อมูลแบบเดียวขนาดเดียว การเปลี่ยนเอาต์พุตข้อมูลอาจสร้างความสับสนและสร้างความรำคาญให้กับนักเรียนที่ยังใหม่ต่อแนวคิดของการวิเคราะห์คลัสเตอร์
ความบริสุทธิ์ของคลัสเตอร์และคุณภาพของคลัสเตอร์คำนวณอย่างไร
เราคูณจำนวนจุดข้อมูลทั้งหมดด้วยจำนวนป้ายกำกับคลาสที่ถูกต้องในแต่ละคลัสเตอร์ ความบริสุทธิ์เพิ่มขึ้นเมื่อจำนวนคลัสเตอร์เพิ่มขึ้นโดยทั่วไป หากเรามีแบบจำลองที่จัดระเบียบการสังเกตแต่ละรายการออกเป็นคลัสเตอร์ของตัวเอง ตัวอย่างเช่น ความบริสุทธิ์จะกลายเป็นหนึ่งเดียว เราอาจคำนวณค่าสัมประสิทธิ์ภาพเงาเฉลี่ยของวัตถุทั้งหมดในคลัสเตอร์เพื่อกำหนดความเหมาะสมภายในคลัสเตอร์ ค่าสัมประสิทธิ์ภาพเงาเฉลี่ยของออบเจ็กต์ทั้งหมดในชุดข้อมูลอาจใช้เพื่อประเมินคุณภาพของการจัดกลุ่ม
อะไรคือความแตกต่างระหว่าง K-mean และ K-medoids?
K-mean พยายามลดข้อผิดพลาดกำลังสองทั้งหมด ในขณะที่ k-medoids พยายามลดผลรวมของความไม่เหมือนกันระหว่างจุดที่จัดอยู่ในคลัสเตอร์และจุดที่เลือกให้เป็นศูนย์กลางของคลัสเตอร์ อัลกอริธึม k-medoids ต่างจากวิธี k-mean จะเลือกจุดข้อมูลเป็นศูนย์กลาง ( medoids หรือ exemplars)