數據挖掘中的聚類分析：應用、方法和要求

已發表: 2020-01-20

在這裡，我們將討論數據挖掘中的聚類分析。所以首先讓我們知道什麼是數據挖掘中的聚類，然後是它的介紹以及數據挖掘中對聚類的需求。我們還將討論聚類分析在數據科學中的算法和應用。稍後我們將了解聚類分析和數據挖掘聚類方法中的不同方法。

什麼是數據挖掘中的聚類？

在聚類中，一組不同的數據對像被歸類為相似對象。一組是指一組數據。聚類分析根據數據的相似性將數據集劃分為不同的組。在將數據分類為各個組之後，為該組分配一個標籤。它有助於通過進行分類來適應變化。

閱讀：數據挖掘的常見示例。

什麼是數據挖掘中的聚類分析？

數據挖掘中的聚類分析是指找出組中彼此相似但與其他組中的對像不同的對象組。

數據挖掘聚類分析的應用

數據聚類分析有很多用途，例如圖像處理、數據分析、模式識別、市場研究等等。使用數據聚類，公司可以在客戶數據庫中發現新的群體。數據分類也可以根據購買模式進行。

數據挖掘中的聚類有助於使用生物學領域的相似功能或基因對動植物進行分類。它有助於深入了解物種的結構。使用數據挖掘中的聚類來識別區域。在地球觀測數據庫中，識別出彼此相似的土地。

根據地理位置、價值和房屋類型，在城市中定義了一組房屋。數據挖掘中的聚類通過對 Internet 上的文件進行分類來幫助發現信息。它也用於檢測應用。使用分析欺騙模式的數據挖掘中的聚類可以輕鬆檢測信用卡中的欺詐行為。閱讀有關數據科學在金融行業應用的更多信息。

它有助於理解每個集群及其特徵。人們可以理解數據是如何分佈的，它作為數據挖掘功能中的一種工具。

數據挖掘中聚類的要求

可解釋性

聚類的結果應該是可用的、可理解的和可解釋的。

幫助處理混亂的數據

通常，數據是混亂和非結構化的。它不能被快速分析，這就是信息聚類在數據挖掘中如此重要的原因。分組可以通過將數據組織成相似的數據對象組來賦予數據某種結構。數據專家在處理數據和發現新事物時變得更加自在。

高維

數據聚類還能夠處理高維數據和小規模數據。

發現屬性形狀簇

使用聚類算法檢測任意形狀的簇。也可以找到具有球形的小尺寸簇。

多種數據類型的算法可用性

許多不同類型的數據可以與聚類算法一起使用。數據可以是二進制數據、分類數據和基於區間的數據。

閱讀：你應該知道的數據挖掘算法

集群可擴展性

數據庫通常非常龐大，難以處理。該算法應該是可擴展的以處理廣泛的數據庫，因此它需要是可擴展的。

數據挖掘聚類方法

1.分區聚類方法

在這種方法中，假設“m”分區是在數據庫的“p”個對像上完成的。一個集群將由每個分區表示，並且 m < p。 K是對象分類後的組數。此分區聚類方法需要滿足一些要求，它們是：-

一個目標應該只屬於一個組。
任何團體都不應該沒有一個單一的目的。

在這種類型的分區聚類方法中應該記住一些要點，它們是：

如果我們已經給出不，將會有一個初始分區。一個分區（比如 m）。
有一種技術稱為迭代重定位，這意味著對象將從一組移動到另一組以改進分區。

2.層次聚類方法

在這種層次聚類方法中，給定的一組數據對像被創建為一種層次分解。層次分解的形成將決定分類的目的。有兩種創建層次分解的方法，它們是：-

1. 分裂的方法

分裂方法的另一個名稱是自上而下的方法。在此方法開始時，所有數據對像都保存在同一個集群中。通過使用連續迭代拆分組來創建更小的集群。不斷迭代的方法將繼續進行，直到滿足終止條件。分組拆分或合併後無法撤消，這就是該方法不那麼靈活的原因。

2. 凝聚法

這種方法的另一個名稱是自下而上的方法。所有組在開始時都是分開的。然後它繼續合併，直到所有組合併，或滿足終止條件。

有兩種方法可用於提高數據挖掘中的層次聚類質量，它們是：-

在層次聚類的每一次劃分中，都應該仔細分析對象之間的聯繫。
可以使用分層凝聚算法進行分層凝聚的整合。在這種方法中，首先，對像被分組到微集群中。在將數據對象分組為微簇後，對微簇進行宏聚類。

3. 基於密度的聚類方法

在數據挖掘中的這種聚類方法中，密度是主要關注點。質量的概念被用作這種聚類方法的基礎。在這種聚類方法中，聚類會不斷增長。對於每個數據點，組的半徑中應該至少有一個點。

4. 基於網格的聚類方法

在這種類型的基於網格的聚類方法中，使用對像一起形成網格。通過將對象空間量化為有限數量的單元來形成網格結構。

基於網格的聚類方法的優點：-

更快的處理時間：這種方法的處理時間比另一種方式快得多，因此可以節省時間。
此方法取決於否。量化每個維度的空間中的細胞數。

5. 基於模型的聚類方法

在這種類型的聚類方法中，每個聚類都被假設，以便它可以找到最適合模型的數據。在這種方法中，密度函數被聚類以定位組。

6. 基於約束的聚類方法

併入應用程序或面向用戶的約束以執行聚類。用戶的期望被稱為約束。在這個分組的過程中，交流是非常互動的，這是由限制提供的。

哪些分類不被視為聚類分析？

Graph Partitioning - 區域不相同並且僅基於相互協同和相關性進行分類的分類類型不是聚類分析。
查詢結果——在這種類型的分類中，組是根據外部來源給出的規範創建的。它不計為聚類分析。
簡單分割– 根據姓氏將名稱劃分為不同的註冊組不符合聚類分析的條件。
監督分類——那些使用標籤信息分類的分類不能說是聚類分析，因為聚類分析涉及基於模式的分組。

結論

所以現在我們已經了解了很多關於數據聚類的東西，比如數據挖掘中的數據聚類和聚類分析的方法和方法。

如果您有興趣學習數據科學，請查看我們的 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃專為在職專業人士創建，提供 10 多個案例研究和項目、實用的實踐研討會、行業專家指導、1與行業導師一對一，400 多個小時的學習和頂級公司的工作協助。

聚類分析有哪些缺點？

聚類分析是一種統計方法，它不預先假定市場或客戶行為的先驗知識。每次進行統計分析時，一些聚類分析方法會產生一些不同的結果。之所以會出現這種情況，是因為沒有一種萬能的數據分析方法。對於剛接觸聚類分析概念的學生來說，不斷變化的數據輸出可能會讓他們感到困惑和惱火。

如何計算簇純度和簇質量？

我們將數據點的總數乘以每個集群中準確的類標籤的數量。純度隨著集群數量的增加而增加。例如，如果我們有一個模型將每個觀察組織到自己的集群中，那麼純度就變成了一個。我們可以計算集群中所有對象的平均輪廓係數值，以確定其在集群內的適應度。數據集中所有對象的平均輪廓係數值可用於評估分組的質量。

K-means 和 K-medoids 有什麼區別？

K-means 試圖減少總平方誤差，而 k-medoids 試圖減少歸類為集群中的點與選擇作為集群中心的點之間的差異總和。與 k-means 方法不同，k-medoids 算法選擇數據點作為中心（medoids 或 exemplars）。