機器學習中的 5 種分類算法 [2022]

已發表: 2021-01-02

介紹

機器學習是人工智能中最重要的主題之一。它進一步分為監督學習和無監督學習，可以與標記和未標記的數據分析或數據預測相關。在監督學習中，我們還有另外兩種類型的業務問題，稱為回歸和分類。

分類是一種機器學習算法，我們將標記的數據作為輸入，我們需要將輸出預測到一個類中。如果有兩個類，則稱為二元分類。如果有兩個以上的類，則稱為多類分類。在現實世界的場景中，我們傾向於看到這兩種分類。

在本文中，我們將研究幾種類型的分類算法及其優缺點。有很多可用的分類算法，但讓我們關注以下 5 種算法：

邏輯回歸
K 最近鄰
決策樹
隨機森林
支持向量機

1. 邏輯回歸

儘管名稱暗示回歸，但它是一種分類算法。邏輯回歸是一種用於對數據進行分類的統計方法，其中有一個或多個獨立變量或特徵來確定結果，該結果是用具有兩個或多個類別的變量 (TARGET) 測量的。其主要目標是找到描述目標變量和自變量之間關係的最佳擬合模型。

優點

1）易於實施、解釋和高效訓練，因為它不做任何假設並且分類速度很快。

2)可用於多類分類。

3）它不太容易過擬合，但在高維數據集中會過擬合。

缺點

1）當觀察值小於特徵時過度擬合。

2)僅適用於離散函數。

3）非線性問題無法解決。

4)難以學習複雜的模式，通常神經網絡勝過它們。

2. K 最近鄰

K-最近鄰（KNN）算法使用“特徵相似性”或“最近鄰”技術來預測新數據點落入的集群。以下是我們可以更好地理解該算法的工作的幾個步驟

第 1 步- 為了在機器學習中實現任何算法，我們需要準備好用於建模的清潔數據集。 假設我們已經有一個清理過的數據集，該數據集已分為訓練和測試數據集。

第 2 步- 由於我們已經準備好數據集，我們需要選擇 K（整數）的值，它告訴我們需要考慮多少最近的數據點來實現算法。 我們可以在文章的後期了解如何確定k值。

Step 3 - 此步驟是一個迭代步驟，需要應用於數據集中的每個數據點

使用任何距離度量計算測試數據和每行訓練數據之間的距離
歐幾里得距離
曼哈頓距離
閔可夫斯基距離
漢明距離。

許多數據科學家傾向於使用歐幾里得距離，但我們可以在本文的後期了解每一個的意義。

我們需要根據我們在上述步驟中使用的距離度量對數據進行排序。

選擇轉換後的排序數據中的前 K 行。

然後它將根據這些行中最頻繁的類為測試點分配一個類。

第 4 步– 結束

優點

易於使用、理解和解釋。
計算時間快。
沒有關於數據的假設。
預測準確率高。
多功能——可用於分類和回歸業務問題。
也可用於多類問題。
在 Hyperparameter Tuning 步驟中，我們只有一個 Hyper 參數需要調整。

缺點

由於算法存儲所有訓練數據，因此計算成本高且需要高內存。
隨著變量的增加，算法變慢。
它對不相關的特徵非常敏感。
維度的詛咒。
選擇 K 的最優值。
類不平衡數據集會導致問題。
數據中的缺失值也會導致問題。

閱讀：機器學習項目理念

3. 決策樹

決策樹可用於分類和回歸，因為它可以處理數字和分類數據。隨著樹的發展，它將數據集分解為越來越小的子集或節點。決策樹具有決策和葉節點的輸出，其中決策節點具有兩個或多個分支，而葉節點表示決策。對應於最佳預測器的最頂層節點稱為根節點。

優點

簡單易懂
輕鬆可視化
更少的數據解釋
處理數字和分類數據。

缺點

有時不能很好地概括
對輸入數據的變化不穩定

4. 隨機森林

隨機森林是一種集成學習方法，可用於分類和回歸。它通過構建多個決策樹來工作，並通過在分類問題中的回歸或多數投票中取所有決策樹的平均值來輸出結果。從名字本身就可以知道，一組樹稱為森林。

優點

可以處理大型數據集。
將輸出變量的重要性。
可以處理缺失值。

缺點

它是一種黑盒算法。
緩慢的實時預測和復雜的算法。

5. 支持向量機

支持向量機是將數據集表示為空間中的點，這些點通過盡可能遠的明顯間隙或線分成類別。新數據點現在被映射到同一空間，並根據它們落在線的哪一側或分離的哪一側分類為屬於一個類別。

優點

在高維空間中效果最佳。
在決策函數中使用訓練數據點的子集，使其成為一種內存高效算法。

缺點

不會提供概率估計。
可以使用交叉驗證計算概率估計，但它很耗時。

另請閱讀：機器學習職業

結論

在本文中，我們討論了 5 種分類算法、它們的簡要定義、優缺點。這些只是我們介紹的幾種算法，但還有更有價值的算法，例如樸素貝葉斯、神經網絡、有序邏輯回歸。人們無法判斷哪種算法適用於哪個問題，因此最佳實踐是嘗試一些並根據評估指標選擇最終模型。

如果您有興趣了解有關機器學習的更多信息，請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑，該文憑專為工作專業人士設計，提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

使用邏輯回歸的主要目的是什麼？

邏輯回歸主要用於統計概率。它使用邏輯回歸方程來理解給定數據中存在的因變量和自變量之間的關係。這是通過估計單個事件的概率來完成的。邏輯回歸模型與線性回歸模型非常相似，但是，當數據中給出的因變量是二分法時，最好使用它們。

SVM 與邏輯回歸有何不同？

儘管 SVM 提供了比邏輯回歸模型更高的準確性，但它使用起來很複雜，因此對用戶不友好。在數據量很大的情況下，不推薦使用SVM。雖然 SVM 用於解決回歸和分類問題，但邏輯回歸只能很好地解決分類問題。與 SVM 不同，過度擬合在使用邏輯回歸時很常見。此外，與支持向量機相比，邏輯回歸更容易受到異常值的影響。

回歸樹是一種決策樹嗎？

是的，回歸樹基本上是用於回歸任務的決策樹。回歸模型用於理解因變量與通過拆分初始給定數據集實際產生的自變量之間的關係。只有當決策樹由一個連續的目標變量組成時，才可以使用回歸樹。