機器學習中的聚類:解釋了 3 種類型的聚類
已發表: 2020-11-30目錄
介紹
機器學習是 2020 年最熱門的技術之一,隨著數據的日益增長,對機器學習的需求也呈指數級增長。 機器學習是一個非常廣泛的主題,在每個領域和行業都有不同的算法和用例。 其中之一是無監督學習,我們可以在其中看到聚類的使用。
無監督學習是一種機器從未標記的數據中學習的技術。 由於我們不知道標籤,因此機器沒有從中學習的正確答案,但機器本身會從給定數據中找到一些模式來提出業務問題的答案。
聚類是一種機器學習無監督學習技術,涉及對給定的未標記數據進行分組。 在每個清理過的數據集中,通過使用聚類算法,我們可以將給定的數據點聚類到每個組中。 聚類算法假設同一簇中的數據點應具有相似的屬性,而不同簇中的數據點應具有高度不同的屬性。
在本文中,我們將了解集群的需求、不同類型的集群以及它們的優缺點。
閱讀:機器學習的先決條件
集群需要什麼?
聚類是一種廣泛使用的 ML 算法,它允許我們找到數據集中數據點之間的隱藏關係。

例子:
1) 客戶根據之前客戶的相似度進行細分,可用於推薦。
2)基於文本數據的集合,我們可以根據內容的相似性對數據進行組織,從而創建主題層次結構。
3) 圖像處理主要用於生物學研究,用於識別潛在模式。
4) 垃圾郵件過濾。
5) 識別欺詐和犯罪活動。
6) 也可用於夢幻足球和運動。
聚類類型
機器學習中有許多類型的聚類算法。 我們將在本文中討論以下三種算法:
1) K-Means 聚類。
2)均值偏移聚類。
3) 星展掃描。
1. K-Means 聚類
K-Means 是機器學習中其他聚類算法中最流行的聚類算法。 我們可以在很多頂級行業甚至很多入門課程中看到這種算法。 它是在實施和理解方面最容易開始的模型之一。
Step-1我們首先選擇一個隨機數 k 使用並隨機初始化它們各自的中心點。
Step-2然後通過計算該點與每個組中心之間的距離(歐幾里德或曼哈頓)對每個數據點進行分類,然後將數據點聚類到中心最接近的聚類中。
Step-3我們通過取組中所有向量的平均值來重新計算組中心。
Step-4我們重複所有這些步驟進行多次迭代或直到組中心沒有太大變化。
優點
1) 非常快。
2)很少的計算
3) 線性複雜度 O(n)。
缺點
1)選擇k值。
2)不同運行中的不同聚類中心。
3) 缺乏一致性。
2.均值漂移聚類
均值偏移聚類是一種基於滑動窗口的算法,它試圖識別數據點的密集區域。 作為基於質心的算法,這意味著目標是定位每個類的中心點,然後通過將中心點的候選更新為滑動窗口中點的平均值來進行工作。

然後在後處理階段過濾這些選定的候選窗口,以消除重複,這將有助於形成最終的中心集及其相應的類。
Step-1我們從一個以點 C(隨機選擇)為中心並以半徑 r 為內核的圓形滑動窗口開始。 均值偏移是一種爬山算法,它涉及在每一步迭代地將該內核移動到更高密度的區域,直到我們達到收斂。
Step-2在每次迭代之後,通過將中心點移動到窗口內點的平均值,將滑動窗口移向更高密度的區域。 滑動窗口內的密度隨著其內點數的增加而增加。 移動窗口中點的平均值將逐漸向點密度較高的區域移動。
步驟 3在這一步中,我們繼續基於平均值移動滑動窗口,直到沒有方向可以在所選內核內獲得更多點。
步驟 4步驟 1-2 使用多個滑動窗口完成,直到所有點都位於一個窗口內。 當多個滑動窗口傾向於重疊時,選擇包含最多點的窗口。 數據點現在根據它們所在的滑動窗口進行聚類。
優點
1)無需選擇簇數。
2) 非常適合自然數據驅動的意義
缺點
1)唯一的缺點是窗口大小(r)的選擇可能很重要。
3.基於密度的噪聲應用空間聚類(DBSCAN)
DBSCAN 類似於 Mean-Shift 聚類,它也是一種基於密度的算法,但有一些變化。
Step-1它從任意起點開始,使用稱為 epsilon 的距離提取該點的鄰域。
Step-2如果有足夠的點並且數據點成為聚類中的第一個新點,則開始聚類。 如果沒有足夠的數據,該點將被標記為噪聲,點將被標記為已訪問。
步驟 3 epsilon 內的點傾向於成為集群的一部分。 對集群內的所有點重複此過程。
步驟 4重複步驟 2 和 3,直到集群中的點被訪問和標記。
Step-5在完成當前聚類後,將一個新的未訪問點處理成一個新的聚類,從而將其分類為一個聚類或作為噪聲。
優點
1)無需設置簇數。
2) 將異常值定義為噪聲。
3)有助於很好地找到任意大小和任意形狀的簇。
缺點

1) 在不同密度的集群上表現不佳。
2) 對高維數據表現不佳。
另請閱讀:機器學習項目理念
結論
在本文中,我們了解了當前市場對聚類的需求,不同類型的聚類算法及其優缺點。 聚類確實是機器學習中一個非常有趣的話題,還有很多其他類型的聚類算法值得學習。
如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。
高斯混合聚類是什麼意思?
高斯混合模型通常用於查詢數據的情況下執行硬聚類或軟聚類。 高斯混合模型為了更好地執行聚類做出了一些假設。 基於這些假設,模型將屬於單個分佈的數據點組合在一起。 這些是概率模型,它們使用軟聚類方法來有效地執行聚類過程。
聚類中的輪廓係數是多少?
為了衡量聚類的執行情況,我們使用輪廓係數。 基本上,測量兩個簇之間的平均距離,然後使用公式計算輪廓寬度。 這樣,我們可以輕鬆地測量給定數據中存在的最佳聚類數,從而找出完成聚類的效率。
機器學習中的模糊聚類是什麼意思?
當給定數據屬於多個聚類或組時,使用模糊聚類方法,該方法適用於模糊 C 均值算法或模糊 K 均值算法。 它是一種軟聚類方法。 根據聚類中心與圖像點之間的距離,該方法為與每個聚類中心關聯的每個圖像點分配隸屬度值。
