聚類與分類:聚類與分類之間的區別
已發表: 2020-12-01目錄
介紹
機器學習算法通常根據輸出變量的類型和需要解決的問題類型進行分類。 這些算法大致分為三種類型,即回歸、聚類和分類。 回歸和分類是監督學習算法的類型,而聚類是一種無監督算法。
當輸出變量是連續的時,它是一個回歸問題,而當它包含離散值時,它是一個分類問題。 當我們需要根據數據點的特徵創建聚類時,通常會使用聚類算法。 本文重點對聚類、分類進行簡要介紹,並列出兩者之間的一些區別。
無需編碼經驗。 360° 職業支持。 來自 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑。分類
分類是一種有監督的機器學習算法。 對於任何給定的輸入,分類算法有助於預測輸出變量的類別。 可以有多種類型的分類,如二元分類、多類分類等。這取決於輸出變量中的類數。
分類算法的類型
邏輯回歸: - 它是可用於分類的線性模型之一。 它使用 sigmoid 函數來計算某個事件發生的概率。 它是二元變量分類的理想方法。
K-Nearest Neighbors (kNN) : – 它使用歐幾里得距離、曼哈頓距離等距離度量來計算一個數據點與其他每個數據點的距離。 為了對輸出進行分類,它需要每個數據點的 k 個最近鄰居的多數票。
決策樹:——它是一種非線性模型,克服了線性算法(如邏輯回歸)的一些缺點。 它以包含節點和葉子的樹結構的形式構建分類模型。 該算法涉及多個 if-else 語句,這些語句有助於將結構分解為更小的結構並最終提供最終結果。 它可以用於回歸和分類問題。
隨機森林: - 它是一種集成學習方法,涉及多個決策樹來預測目標變量的結果。 每個決策樹都提供自己的結果。 在分類問題的情況下,需要這些多棵決策樹的多數票來對最終結果進行分類。 在回歸問題的情況下,它取決策樹預測值的平均值。
樸素貝葉斯: – 它是一種基於貝葉斯定理的算法。 它假定任何特定特徵都獨立於其他特徵的包含。 即它們彼此不相關。 由於這種假設,它通常不適用於復雜數據,因為在大多數數據集中,特徵之間存在某種關係。
支持向量機: - 它表示多維空間中的數據點。 然後在超平面的幫助下將這些數據點分為幾類。 它為數據集中的 n 個特徵繪製一個 n 維空間,然後嘗試創建超平面,以便以最大邊距劃分數據點。
閱讀:數據挖掘的常見示例。
應用
- 電子郵件垃圾郵件檢測。
- 面部識別。
- 確定客戶是否會流失。
- 銀行貸款審批。
聚類
聚類是一種無監督機器學習算法。 它用於將具有相似特徵的數據點分組為集群。 理想情況下,同一簇中的數據點應該表現出相似的屬性,而不同簇中的點應該盡可能地不同。
聚類分為兩類——硬聚類和軟聚類。 在硬聚類中,數據點僅分配給其中一個聚類,而在軟聚類中,它提供了數據點位於每個聚類中的概率可能性。
聚類算法的類型
K-Means Clustering : – 它初始化預定義數量的 k 個集群,並使用距離度量來計算每個數據點與每個集群質心的距離。 它根據距離將數據點分配到 k 個集群之一。
Agglomerative Hierarchical Clustering (Bottom-Up Approach) : – 將每個數據點視為一個集群,並根據距離度量和用於鏈接這些集群的標準合併這些數據點。
Divisive Hierarchical Clustering (Top-Down Approach) : – 將所有數據點初始化為一個集群,並根據距離度量和標準分割這些數據點。 Agglomerative and Divisive clustering 可以表示為一個樹狀圖,並且通過引用它來選擇要選擇的集群的數量。

DBSCAN(基於密度的噪聲應用空間聚類) : – 它是一種基於密度的聚類方法。 像 K-Means 這樣的算法在相當分離的集群上工作得很好,並創建了球形的集群。 DBSCAN 用於數據為任意形狀且對異常值不太敏感的情況。 它將在一定半徑內具有許多相鄰數據點的數據點分組。
OPTICS (Ordering Points to identify Clustering Structure) : – 它是另一種基於密度的聚類方法,除了考慮更多參數外,它在過程中與 DBSCAN 相似。 但它在計算上比 DBSCAN 更複雜。 此外,它不會將數據點分成集群,但它會創建一個可達性圖,有助於解釋創建集群。
BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) : – 它通過生成數據摘要來創建集群。 它適用於龐大的數據集,因為它首先匯總數據,然後使用相同的數據創建集群。 但是,它只能處理可以在空間中表示的數字屬性。
另請閱讀:您應該知道的數據挖掘算法
應用
- 細分市場的消費群。
- 社交網絡分析。
- 圖像分割。
- 推薦系統。
聚類和分類之間的區別
- 類型: - 聚類是一種無監督學習方法,而分類是一種監督學習方法。
- 過程: – 在聚類中,數據點根據它們的相似性分組為聚類。 分類涉及將輸入數據分類為來自輸出變量的類標籤之一。
- 預測: - 分類涉及基於模型構建的輸入變量的預測。 聚類通常用於分析數據並從中得出推論以做出更好的決策。
- 數據拆分: - 分類算法需要將數據拆分為訓練和測試數據,以預測和評估模型。 聚類算法不需要拆分數據來使用。
- 數據標籤: - 分類算法處理標記數據,而聚類算法處理未標記數據。
- 階段: - 分類過程涉及兩個階段 - 培訓和測試。 聚類過程僅涉及數據的分組。
- 複雜性: - 由於分類處理更多的階段,分類算法的複雜性高於僅旨在對數據進行分組的聚類算法。
結論
分類和聚類的方法不同,它們算法的預期結果也不同。 簡而言之,分類和聚類都用於解決不同的問題。 本文簡要介紹了分類和聚類。
我們還閱讀了一些關於每種情況下使用的不同類型的算法以及一些應用程序。 本文中列出的算法並不詳盡。 即它不是一個完整的列表,並且存在許多其他算法可用於解決此類問題。
如果您有興趣學習數據科學,請查看我們的數據科學 PG 文憑,該文憑專為在職專業人士而設,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家指導、行業一對一輔導導師,400 多個小時的學習和頂級公司的工作協助。
聚類有哪些不同的方法和應用?
一個簇可以稱為一組屬於同一類的對象。 簡單來說,我們可以說集群是一組具有相似屬性的對象。 眾所周知,聚類是機器學習中分析的重要過程。
不同的聚類方法
1. 基於分區的聚類
2.基於層次的聚類
3. 基於密度的聚類
4. 基於網格的聚類
5. 基於模型的聚類
聚類的不同應用
1.推薦引擎
2.市場和客戶細分
3. 社交網絡分析(SNA)
4.搜索結果聚類
5. 生物數據分析
6.醫學影像分析
7. 識別癌細胞
這些是一些最廣泛使用的方法和最流行的聚類應用。
分類有哪些不同的分類器和應用?
分類技術用於通過將數據分類為不同數量的類來為每個類添加標籤。
分類器可以有兩種類型:
1. 二元分類器 - 在這裡,分類僅使用 2 個可能的結果或 2 個不同的類別進行。 例如,男女分類、垃圾郵件和非垃圾郵件等。
2. 多類分類器——在這裡,分類是用兩個以上不同的類來執行的。 例如,土壤類型的分類,音樂的分類等。
分類的應用是:
一、文件分類
生物識別
手寫識別
語音識別
這些只是分類應用中的一小部分。 在不同行業的幾個地方,這是一個有用的概念。
機器學習中最常見的分類算法有哪些?
分類是完全依賴機器學習算法的自然語言處理任務。 每個算法都用於解決特定問題。 因此,每個算法都根據需求在不同的地方使用。
有很多分類算法可以用於數據集。 在統計學中,分類研究非常廣泛,任何特定算法的使用都將完全取決於您正在處理的數據集。 以下是機器學習中最常見的分類算法:
1.支持向量機
2.樸素貝葉斯
3. 決策樹
4. K-最近鄰
5. 邏輯回歸
這些分類算法用於使人類可能需要數百小時才能執行的多項分析任務變得簡單而高效。