R 中的聚類分析：您將永遠需要的完整指南 [2022]

已發表: 2021-01-04

如果你曾經涉足數據科學或 Python 的世界，你就會聽說過 R。

R 是作為 GNU 項目開發的，它既是一種語言，又是一種為圖形和統計計算而設計的環境。它類似於 S 語言，因此可以被視為它的實現。

作為一門語言，R 是高度可擴展的。它提供了各種統計和圖形技術，如時間序列分析、線性建模、非線性建模、聚類、分類、經典統計測試。

我們將更深入地探索這些技術之一，那就是聚類或聚類分析！

什麼是聚類分析？

用最簡單的術語來說，聚類是一種數據分割方法，根據相似性將數據分成幾組。

如何評估相似性？在觀測距離測量的基礎上。這些可以是歐幾里得或基於相關的距離測量。

聚類分析是數據分析和數據挖掘中最流行且直觀的方法之一。它非常適合存在大量數據並且我們必須從中提取見解的情況。在這種情況下，可以將批量數據分解為更小的子集或組。

從整個數據集中形成和派生的小組稱為集群。這些是通過執行一個或多個統計操作獲得的。每個集群雖然包含不同的元素，但共享以下屬性：

即使沒有聚類分析的“花哨”名稱，在日常生活中也經常使用相同的名稱。

在個人層面上，我們將外出度假時需要打包的東西組合在一起。先是衣服，然後是洗漱用品，然後是書，等等。我們製作類別，然後單獨處理它們。

公司在對電子郵件列表進行細分並根據年齡、經濟背景、以前的購買行為等對客戶進行分類時，也會使用聚類分析。

聚類分析也稱為“無監督機器學習”或模式識別。無監督，因為我們不希望僅對特定樣本中的特定樣本進行分類。學習是因為算法還學習如何聚類。

我們有三種最常用於聚類的方法。這些是：

這是最常見的層次聚類類型。 AHC 的算法以自下而上的方式工作。它首先將每個數據點視為一個集群（稱為葉子）。

然後它將最相似的兩個集群組合在一起。這些新的更大的集群稱為節點。重複分組，直到整個數據集組合成一個稱為根的大集群。

可視化和繪製 AHC 過程的每個步驟會導致生成稱為樹狀圖的樹。

反轉 AHC 過程會導致分裂聚類和聚類的生成。

樹狀圖也可以可視化為：

資源

總之，如果您想要一個擅長識別小集群的算法，請選擇 AHC。如果您想要一種擅長識別大型集群的方法，那麼分裂式聚類方法應該是您的選擇。

“通過相似性聚合聚類”是此方法的另一個名稱。它的工作原理如下：

比較建立全局聚類的成對的單個對象。為向量 m(A, B) 和 d(A, B) 分配一對單獨的值 (A, B)。在向量 b(A, B) 中，A 和 B 都具有相同的值，而在向量 d(A, B) 中，它們都具有不同的值）。

據說 A 和 B 的兩個單獨的值遵循如下的 Condorcet 準則：

c(A, B) = m(A, B)- d(A, B)

對於像 A 這樣的單個值和稱為 S 的集群，Condorcet 標準為：

c(A,S) = Σ i c(A,B i )

總和為 Bi ∈ S。

在滿足上述條件的情況下，構造 c(A, S) 形式的簇。 A 的最小值可以為 0，並且是集群中所有數據點中最大的。

最後，計算全局孔多塞準則。這是通過對 A 中存在的各個數據點和包含它們的集群S A進行求和來完成的。

重複上述步驟，直到全局 Condorcet 準則沒有改進或達到最大迭代次數。

這是最流行的分區算法之一。所有可用數據（有時也稱為數據點/觀察）將僅分組到這些集群中。以下是算法如何進行的細分：

使用以下方法之一計算數據點和質心之間的距離：

其中最流行的 - 歐幾里得距離 - 計算如下：

每次運行算法時，都會返回不同的組作為結果。對變量k的第一次賦值是完全隨機的。這使得 k-means 對第一選擇非常敏感。結果，除非組的數量和總體觀察值很小，否則幾乎不可能獲得相同的聚類。