聚類與分類：聚類與分類之間的區別

已發表: 2020-12-01

介紹

機器學習算法通常根據輸出變量的類型和需要解決的問題類型進行分類。這些算法大致分為三種類型，即回歸、聚類和分類。回歸和分類是監督學習算法的類型，而聚類是一種無監督算法。

當輸出變量是連續的時，它是一個回歸問題，而當它包含離散值時，它是一個分類問題。當我們需要根據數據點的特徵創建聚類時，通常會使用聚類算法。本文重點對聚類、分類進行簡要介紹，並列出兩者之間的一些區別。

無需編碼經驗。 360° 職業支持。來自 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑。

聚類

聚類是一種無監督機器學習算法。它用於將具有相似特徵的數據點分組為集群。理想情況下，同一簇中的數據點應該表現出相似的屬性，而不同簇中的點應該盡可能地不同。

聚類分為兩類——硬聚類和軟聚類。在硬聚類中，數據點僅分配給其中一個聚類，而在軟聚類中，它提供了數據點位於每個聚類中的概率可能性。

聚類算法的類型

K-Means Clustering : – 它初始化預定義數量的 k 個集群，並使用距離度量來計算每個數據點與每個集群質心的距離。 它根據距離將數據點分配到 k 個集群之一。

Agglomerative Hierarchical Clustering (Bottom-Up Approach) ： – 將每個數據點視為一個集群，並根據距離度量和用於鏈接這些集群的標準合併這些數據點。

Divisive Hierarchical Clustering (Top-Down Approach) : – 將所有數據點初始化為一個集群，並根據距離度量和標準分割這些數據點。 Agglomerative and Divisive clustering 可以表示為一個樹狀圖，並且通過引用它來選擇要選擇的集群的數量。

DBSCAN（基於密度的噪聲應用空間聚類）： – 它是一種基於密度的聚類方法。 像 K-Means 這樣的算法在相當分離的集群上工作得很好，並創建了球形的集群。 DBSCAN 用於數據為任意形狀且對異常值不太敏感的情況。它將在一定半徑內具有許多相鄰數據點的數據點分組。

OPTICS (Ordering Points to identify Clustering Structure) : – 它是另一種基於密度的聚類方法，除了考慮更多參數外，它在過程中與 DBSCAN 相似。 但它在計算上比 DBSCAN 更複雜。此外，它不會將數據點分成集群，但它會創建一個可達性圖，有助於解釋創建集群。

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) : – 它通過生成數據摘要來創建集群。 它適用於龐大的數據集，因為它首先匯總數據，然後使用相同的數據創建集群。 但是，它只能處理可以在空間中表示的數字屬性。

另請閱讀：您應該知道的數據挖掘算法

應用

細分市場的消費群。
社交網絡分析。
圖像分割。
推薦系統。

數據科學高級認證、250 多個招聘合作夥伴、300 多個學習小時、0% EMI

聚類和分類之間的區別

類型： - 聚類是一種無監督學習方法，而分類是一種監督學習方法。
過程： – 在聚類中，數據點根據它們的相似性分組為聚類。 分類涉及將輸入數據分類為來自輸出變量的類標籤之一。
預測： - 分類涉及基於模型構建的輸入變量的預測。 聚類通常用於分析數據並從中得出推論以做出更好的決策。
數據拆分： - 分類算法需要將數據拆分為訓練和測試數據，以預測和評估模型。 聚類算法不需要拆分數據來使用。
數據標籤： - 分類算法處理標記數據，而聚類算法處理未標記數據。
階段： - 分類過程涉及兩個階段 - 培訓和測試。 聚類過程僅涉及數據的分組。
複雜性： - 由於分類處理更多的階段，分類算法的複雜性高於僅旨在對數據進行分組的聚類算法。

結論

分類和聚類的方法不同，它們算法的預期結果也不同。簡而言之，分類和聚類都用於解決不同的問題。本文簡要介紹了分類和聚類。

我們還閱讀了一些關於每種情況下使用的不同類型的算法以及一些應用程序。本文中列出的算法並不詳盡。即它不是一個完整的列表，並且存在許多其他算法可用於解決此類問題。

如果您有興趣學習數據科學，請查看我們的數據科學 PG 文憑，該文憑專為在職專業人士而設，提供 10 多個案例研究和項目、實用的實踐研討會、行業專家指導、行業一對一輔導導師，400 多個小時的學習和頂級公司的工作協助。

聚類有哪些不同的方法和應用？

一個簇可以稱為一組屬於同一類的對象。簡單來說，我們可以說集群是一組具有相似屬性的對象。眾所周知，聚類是機器學習中分析的重要過程。

不同的聚類方法

1. 基於分區的聚類
2.基於層次的聚類
3. 基於密度的聚類
4. 基於網格的聚類
5. 基於模型的聚類

聚類的不同應用

1.推薦引擎
2.市場和客戶細分
3. 社交網絡分析（SNA）
4.搜索結果聚類
5. 生物數據分析
6.醫學影像分析
7. 識別癌細胞

這些是一些最廣泛使用的方法和最流行的聚類應用。

分類有哪些不同的分類器和應用？

分類技術用於通過將數據分類為不同數量的類來為每個類添加標籤。

分類器可以有兩種類型：

1. 二元分類器 - 在這裡，分類僅使用 2 個可能的結果或 2 個不同的類別進行。例如，男女分類、垃圾郵件和非垃圾郵件等。
2. 多類分類器——在這裡，分類是用兩個以上不同的類來執行的。例如，土壤類型的分類，音樂的分類等。

分類的應用是：

一、文件分類
生物識別
手寫識別
語音識別

這些只是分類應用中的一小部分。在不同行業的幾個地方，這是一個有用的概念。

機器學習中最常見的分類算法有哪些？

分類是完全依賴機器學習算法的自然語言處理任務。每個算法都用於解決特定問題。因此，每個算法都根據需求在不同的地方使用。

有很多分類算法可以用於數據集。在統計學中，分類研究非常廣泛，任何特定算法的使用都將完全取決於您正在處理的數據集。以下是機器學習中最常見的分類算法：

1.支持向量機
2.樸素貝葉斯
3. 決策樹
4. K-最近鄰
5. 邏輯回歸

這些分類算法用於使人類可能需要數百小時才能執行的多項分析任務變得簡單而高效。