什麼是聚類和不同類型的聚類方法

已發表: 2020-12-01

考慮一下自己正在與您組織的首席營銷官進行對話。該組織希望藉助數據更好地了解客戶，從而幫助其實現業務目標並為客戶提供更好的體驗。現在，這是集群派上用場的場景之一。

什麼是聚類？

聚類是機器學習的一種無監督學習方法。在無監督學習方法中，推論是從不包含標記輸出變量的數據集中得出的。它是一種探索性數據分析技術，使我們能夠分析多變量數據集。

聚類是將數據集劃分為一定數量的簇的任務，使得屬於一個簇的數據點具有相似的特徵。集群只不過是數據點的分組，因此集群內的數據點之間的距離最小。

換句話說，集群是相似數據點密度高的區域。它通常用於數據集的分析，在龐大的數據集中找到有洞察力的數據並從中得出推論。通常，簇呈球形，但這不是必需的，因為簇可以是任何形狀。在我們的數據科學在線課程中了解聚類和更多數據科學概念。

這取決於我們使用的算法類型，它決定瞭如何創建集群。需要從數據集中得出的推論還取決於用戶，因為沒有良好聚類的標準。

聚類方法有哪些類型？

聚類本身可以分為兩種類型，即。硬聚類和軟聚類。在硬聚類中，一個數據點只能屬於一個聚類。但是在軟聚類中，提供的輸出是屬於每個預定義數量的聚類的數據點的概率似然。

基於密度的聚類

在這種方法中，集群是基於數據空間中表示的數據點的密度創建的。由於該區域中存在大量數據點而變得密集的區域被視為集群。

稀疏區域（數據點非常少的區域）中的數據點被視為噪聲或異常值。在這些方法中創建的集群可以是任意形狀。以下是基於密度的聚類算法的示例：

DBSCAN（基於密度的噪聲應用空間聚類）

DBSCAN 根據距離度量和最小數據點數的標準將數據點組合在一起。它需要兩個參數——eps和最小點數。 Eps 表示數據點應被視為鄰居的接近程度。應完成最小點的標準，以將該區域視為密集區域。

OPTICS（識別聚類結構的訂購點）

它的處理過程與 DBSCAN 相似，但它解決了前一種算法的一個缺點，即無法從任意密度的數據中形成集群。它考慮了另外兩個參數，即核心距離和可達距離。核心距離通過為其設置最小值來指示所考慮的數據點是否為核心。

可達距離是核心距離的最大值，是用於計算兩個數據點之間距離的距離度量值。關於可達距離要考慮的一件事是，如果其中一個數據點是核心點，則其值仍未定義。

HDBSCAN（基於層次密度的噪聲應用空間聚類）

HDBSCAN 是一種基於密度的聚類方法，通過將 DBSCAN 方法轉換為層次聚類算法來擴展它。

層次聚類

分層聚類組（凝聚或也稱為自下而上方法）或劃分（分裂或也稱為自頂向下方法）基於距離度量的集群。在凝聚聚類中，每個數據點最初都充當一個集群，然後將這些集群一一分組。

Divisive 與 Agglomerative 相反，它從所有點開始到一個集群中，然後將它們劃分為更多集群。這些算法創建所有現有集群的距離矩陣，並根據鏈接的標準執行集群之間的鏈接。數據點的聚類通過使用樹狀圖來表示。有不同類型的鏈接：-

○ 單鏈接： - 在單鏈接中，兩個集群之間的距離是這兩個集群中點之間的最短距離。

○ Complete Linkage : – 在完全鏈接中，兩個簇之間的距離是這兩個簇中點之間的最遠距離。

○ 平均鏈接： - 在平均鏈接中，兩個集群之間的距離是集群中每個點與另一個集群中每個點的平均距離。

閱讀：數據挖掘的常見示例。

模糊聚類

在模糊聚類中，任何聚類中數據點的分配都不是決定性的。在這裡，一個數據點可以屬於多個集群。它將結果作為數據點屬於每個集群的概率提供。模糊聚類中使用的算法之一是模糊 c 均值聚類。

該算法在過程中類似於 K-Means 聚類，不同之處在於計算中涉及的參數，如模糊器和成員值。

分區聚類

這種方法是分析師創建集群的最流行的選擇之一。在分區聚類中，根據數據點的特徵對聚類進行分區。我們需要指定要為此聚類方法創建的聚類數量。這些聚類算法遵循一個迭代過程，根據距離在聚類之間重新分配數據點。屬於這一類的算法如下： -

○ K-Means 聚類：– K-Means 聚類是使用最廣泛的算法之一。 它根據用於聚類的距離度量將數據點劃分為 k 個聚類。 “k”的值由用戶定義。計算數據點和聚類質心之間的距離。

最接近集群質心的數據點被分配給該集群。在一次迭代之後，它會再次計算這些集群的質心，並且該過程會繼續進行，直到完成預定義的迭代次數或集群的質心在一次迭代後沒有改變。

這是一種計算量非常大的算法，因為它在每次迭代中計算每個數據點與所有集群的質心的距離。這使得難以對大型數據集實施相同的操作。

PAM（圍繞 Medoids 分區）

該算法也稱為k-medoid算法。它在過程上也類似於 K-means 聚類算法，不同之處在於聚類中心的分配。在 PAM 中，聚類的中心點必須是輸入數據點，而 K-means 聚類則不是這樣，因為聚類中所有數據點的平均值可能不屬於輸入數據點。

○ CLARA (Clustering Large Applications) : – CLARA 是 PAM 算法的擴展，它減少了計算時間，使其在大型數據集上表現得更好。 為此，它在整個數據集中任意選擇一部分數據作為實際數據的代表。它將 PAM 算法應用於數據的多個樣本，並從多次迭代中選擇最佳集群。

另請閱讀：您應該知道的數據挖掘算法

基於網格的聚類

在基於網格的聚類中，數據集被表示為由網格（也稱為單元格）組成的網格結構。該方法的算法中的整體方法與其他算法不同。

他們更關心數據點周圍的價值空間，而不是數據點本身。這些算法的最大優點之一是降低了計算複雜度。這使得它適合處理龐大的數據集。

在將數據集劃分為單元後，它會計算單元的密度，這有助於識別集群。一些基於網格聚類的算法如下：

○ STING（統計信息網格方法）： – 在 STING 中，數據集以分層方式遞歸劃分。 每個單元進一步細分為不同數量的單元。它捕獲單元格的統計測量值，有助於在短時間內回答查詢。

○ WaveCluster : – 在該算法中，數據空間以小波的形式表示。 數據空間組成一個 n 維信號，有助於識別集群。信號中頻率較低、幅度較大的部分錶明數據點比較集中。這些區域被算法識別為簇。信號中頻率高的部分代表簇的邊界。更多細節，你可以參考這篇論文。

○ CLIQUE（Quest 中的聚類）： – CLIQUE 是基於密度和基於網格的聚類算法的組合。 它使用 Apriori 原理劃分數據空間並識別子空間。它通過計算細胞的密度來識別集群。

尾註

在本文中，我們概述了什麼是聚類以及聚類的不同方法及其示例。本文旨在幫助您開始使用集群。

這些聚類方法各有利弊，這限制了它們僅適用於某些數據集。當您對數據集進行分析時，不僅是算法，還有很多其他因素，如機器的硬件規格、算法的複雜性等。

作為分析師，您必須決定選擇哪種算法以及在給定情況下哪種算法會提供更好的結果。一種算法適合所有策略不適用於任何機器學習問題。因此，請繼續嘗試並在集群世界中親自動手。

如果您有興趣學習數據科學，請查看我們的 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃專為在職專業人士創建，提供 10 多個案例研究和項目、實用的實踐研討會、行業專家指導、1與行業導師一對一，400 多個小時的學習和頂級公司的工作協助。

商業智能中使用了哪些不同類型的聚類方法？

聚類是一種用於數據挖掘的無向技術，用於識別數據中的幾個隱藏模式，而無需提出任何特定假設。使用聚類背後的原因是識別某些對象之間的相似性並製作一組相似的對象。
有兩種不同類型的聚類，一種是層次方法，一種是非層次方法。

1. 非層次聚類

在該方法中，將包含 N 個對象的數據集劃分為 M 個簇。在商業智能中，使用最廣泛的非層次聚類技術是 K-means。
2.層次聚類
在這種方法中，生成了一組嵌套集群。在這些嵌套簇中，每一對對象進一步嵌套形成一個大簇，直到最後只剩下一個簇。

什麼時候使用集群？

聚類的主要功能是執行細分，無論是商店、產品還是客戶。客戶和產品可以根據不同的屬性分為層次組。
聚類技術的另一種用途是檢測欺詐交易等異常情況。在這裡，檢測到具有所有良好交易的集群並將其保存為樣本。據說這是一個正常的集群。 每當此集群中出現異常情況時，它就屬於可疑部分。發現這種方法對於檢測體內異常細胞的存在非常有用。
除此之外，聚類被廣泛用於分解大型數據集以創建更小的數據組。這提高了評估數據的效率。

集群的優勢是什麼？

由於幾個原因，據說聚類比給定數據的隨機抽樣更有效。集群的兩個主要優點是：
1. 需要更少的資源
集群從整個樣本中創建一組較少的資源。因此，與隨機抽樣相比，對資源的需求較少。隨機抽樣需要差旅和管理費用，但這裡並非如此。
2. 可行的選擇
在這裡，每個集群確定一整組人口，因為同質組是從整個人口中創建的。有了這個，在一個研究中包含更多的主題變得很容易。