機器學習中的聚類：解釋了 3 種類型的聚類

已發表: 2020-11-30

介紹

機器學習是 2020 年最熱門的技術之一，隨著數據的日益增長，對機器學習的需求也呈指數級增長。機器學習是一個非常廣泛的主題，在每個領域和行業都有不同的算法和用例。其中之一是無監督學習，我們可以在其中看到聚類的使用。

無監督學習是一種機器從未標記的數據中學習的技術。由於我們不知道標籤，因此機器沒有從中學習的正確答案，但機器本身會從給定數據中找到一些模式來提出業務問題的答案。

聚類是一種機器學習無監督學習技術，涉及對給定的未標記數據進行分組。在每個清理過的數據集中，通過使用聚類算法，我們可以將給定的數據點聚類到每個組中。聚類算法假設同一簇中的數據點應具有相似的屬性，而不同簇中的數據點應具有高度不同的屬性。

在本文中，我們將了解集群的需求、不同類型的集群以及它們的優缺點。

閱讀：機器學習的先決條件

集群需要什麼？

聚類是一種廣泛使用的 ML 算法，它允許我們找到數據集中數據點之間的隱藏關係。

例子：

1) 客戶根據之前客戶的相似度進行細分，可用於推薦。

2）基於文本數據的集合，我們可以根據內容的相似性對數據進行組織，從而創建主題層次結構。

3) 圖像處理主要用於生物學研究，用於識別潛在模式。

4) 垃圾郵件過濾。

5) 識別欺詐和犯罪活動。

6) 也可用於夢幻足球和運動。

聚類類型

機器學習中有許多類型的聚類算法。我們將在本文中討論以下三種算法：

1) K-Means 聚類。

2）均值偏移聚類。

3) 星展掃描。

1. K-Means 聚類

K-Means 是機器學習中其他聚類算法中最流行的聚類算法。我們可以在很多頂級行業甚至很多入門課程中看到這種算法。它是在實施和理解方面最容易開始的模型之一。

Step-1我們首先選擇一個隨機數 k 使用並隨機初始化它們各自的中心點。

Step-2然後通過計算該點與每個組中心之間的距離（歐幾里德或曼哈頓）對每個數據點進行分類，然後將數據點聚類到中心最接近的聚類中。

Step-3我們通過取組中所有向量的平均值來重新計算組中心。

Step-4我們重複所有這些步驟進行多次迭代或直到組中心沒有太大變化。

優點

1) 非常快。

2）很少的計算

3) 線性複雜度 O(n)。

缺點

1）選擇k值。

2）不同運行中的不同聚類中心。

3) 缺乏一致性。

2.均值漂移聚類

均值偏移聚類是一種基於滑動窗口的算法，它試圖識別數據點的密集區域。作為基於質心的算法，這意味著目標是定位每個類的中心點，然後通過將中心點的候選更新為滑動窗口中點的平均值來進行工作。

然後在後處理階段過濾這些選定的候選窗口，以消除重複，這將有助於形成最終的中心集及其相應的類。

Step-1我們從一個以點 C（隨機選擇）為中心並以半徑 r 為內核的圓形滑動窗口開始。 均值偏移是一種爬山算法，它涉及在每一步迭代地將該內核移動到更高密度的區域，直到我們達到收斂。

Step-2在每次迭代之後，通過將中心點移動到窗口內點的平均值，將滑動窗口移向更高密度的區域。 滑動窗口內的密度隨著其內點數的增加而增加。移動窗口中點的平均值將逐漸向點密度較高的區域移動。

步驟 3在這一步中，我們繼續基於平均值移動滑動窗口，直到沒有方向可以在所選內核內獲得更多點。

步驟 4步驟 1-2 使用多個滑動窗口完成，直到所有點都位於一個窗口內。 當多個滑動窗口傾向於重疊時，選擇包含最多點的窗口。數據點現在根據它們所在的滑動窗口進行聚類。

優點

1）無需選擇簇數。

2) 非常適合自然數據驅動的意義

缺點

1）唯一的缺點是窗口大小（r）的選擇可能很重要。

3.基於密度的噪聲應用空間聚類（DBSCAN）

DBSCAN 類似於 Mean-Shift 聚類，它也是一種基於密度的算法，但有一些變化。

Step-1它從任意起點開始，使用稱為 epsilon 的距離提取該點的鄰域。

Step-2如果有足夠的點並且數據點成為聚類中的第一個新點，則開始聚類。 如果沒有足夠的數據，該點將被標記為噪聲，點將被標記為已訪問。

步驟 3 epsilon 內的點傾向於成為集群的一部分。 對集群內的所有點重複此過程。

步驟 4重複步驟 2 和 3，直到集群中的點被訪問和標記。

Step-5在完成當前聚類後，將一個新的未訪問點處理成一個新的聚類，從而將其分類為一個聚類或作為噪聲。

優點

1）無需設置簇數。

2) 將異常值定義為噪聲。

3）有助於很好地找到任意大小和任意形狀的簇。

缺點

1) 在不同密度的集群上表現不佳。

2) 對高維數據表現不佳。

另請閱讀：機器學習項目理念

結論

在本文中，我們了解了當前市場對聚類的需求，不同類型的聚類算法及其優缺點。聚類確實是機器學習中一個非常有趣的話題，還有很多其他類型的聚類算法值得學習。

如果您有興趣了解有關機器學習的更多信息，請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑，該文憑專為工作專業人士設計，提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

高斯混合聚類是什麼意思？

高斯混合模型通常用於查詢數據的情況下執行硬聚類或軟聚類。高斯混合模型為了更好地執行聚類做出了一些假設。基於這些假設，模型將屬於單個分佈的數據點組合在一起。這些是概率模型，它們使用軟聚類方法來有效地執行聚類過程。

聚類中的輪廓係數是多少？

為了衡量聚類的執行情況，我們使用輪廓係數。基本上，測量兩個簇之間的平均距離，然後使用公式計算輪廓寬度。這樣，我們可以輕鬆地測量給定數據中存在的最佳聚類數，從而找出完成聚類的效率。

機器學習中的模糊聚類是什麼意思？

當給定數據屬於多個聚類或組時，使用模糊聚類方法，該方法適用於模糊 C 均值算法或模糊 K 均值算法。它是一種軟聚類方法。根據聚類中心與圖像點之間的距離，該方法為與每個聚類中心關聯的每個圖像點分配隸屬度值。