分類算法簡介:概念和各種類型

已發表: 2020-04-13

分類算法可幫助您將數據劃分為不同的類別。 就像您想在打包時對事物進行排序一樣,分類算法可以幫助您對數據進行分類。 在本文中,我們將了解什麼是分類算法、分類算法的類型、本主題的一些基本概念以及它們是如何工作的。

目錄

分類是什麼意思?

為了預測目標類別,當我們使用我們的訓練數據集來獲得邊界條件時,我們稱之為過程分類。 您可以實現多種類型的目標類。 例如,假設您想根據您擁有的客戶數據預測您的客戶是否會購買特定產品。 在這種情況下,目標類將是“是”或“否”。

另一方面,您可能希望根據蔬菜的重量、大小或顏色對蔬菜進行分類。 在這種情況下,可用的目標類可能是 Spinach、Tomato、Onion、Potato 和 Cabbage。 您也可以執行性別分類,其中目標類是女性和男性。

讓我們通過考慮第三個示例來稍微了解分類算法的工作原理。 我們可以將頭髮長度作為特徵參數,儘管這只是為了這個例子。 我們可以通過使用分類算法來訓練我們的模型,並讓它通過給定的特徵參數(即頭髮長度)來確定邊界條件來區分女性和男性。

分類的基本概念

在我們開始進一步討論分類算法之前,您必須熟悉幾個定義。 這樣,您以後就可以避免任何混淆:

特徵

它是我們一次觀察到的特定現象的個體可測量屬性。

分類器

分類器是將模型的輸入數據映射到特定類別的算法。

分類模型

分類模型必須得出我們在訓練期間給予模型的輸入值。 這些模型預測我們提供給它們的新數據的類別(類標籤)。

多標籤分類

多標籤分類是當我們將每個樣本映射到多個類別的一組目標標籤時。 例如,一個書包可以同時裝書、午餐盒和鋼筆。

多類分類

多類分類是指我們將每個樣本僅分配給一個目標標籤。 它發生在我們有兩個以上的班級時。 例如,汽車可能正在移動或靜止,但不能同時移動。

二進制分類

二進制分類是當我們只有兩個可能的類時。 例如,一個人的性別可以是男性或女性。

分類算法的類型

以下是所有類型的分類算法:

  • 內核估計

(K-最近鄰)

  • 線性分類器

(邏輯回歸、Fisher 線性判別和朴素貝葉斯分類器)

  • 二次分類器
  • 神經網絡
  • 學習向量量化
  • 支持向量機

(最小二乘支持向量機)

現在讓我們討論一些基本類型的分類算法:

了解更多:帶有用例示例的機器學習算法類型

K最近鄰

K最近鄰,也稱為KNN,是一種解決回歸和分類問題的流行算法。 它根據 k 鄰居的投票對新案例進行分類。 我們使用距離函數確定 k 最近鄰。 最流行的距離函數是歐幾里得,但也有其他選項,例如曼哈頓和漢明。

要了解 KNN,您可以看一個現實生活中的示例。 假設你想和一個你沒有太多信息的人交朋友。 為了更好地了解他們,您首先要與他們的朋友和同事交談,以了解他們的喜好。 這就是 KNN 算法的工作原理。

在使用 k-最近鄰算法時,請確保您對變量進行標準化,因為較高範圍的變量會產生偏差。 此外,KNN 算法在計算上非常昂貴。

決策樹

決策樹可幫助您根據一系列選擇預測可能的結果。 它是一種監督學習算法,使用具有連續和分類因變量的各種特徵。

例如,假設您想出去為自己買水果,但您注意到天氣多雲。 現在,你有兩個選擇,你可能去,也可能不去。 如果你去,可能會下雨,然後你不得不空手而歸。 另一方面,如果不下雨,您可以購買需要購買的水果。 這是一個包含多個變量的簡單示例,但您明白了。

另請閱讀: R 中的決策樹

邏輯回歸

邏輯回歸不是回歸算法。 邏輯回歸根據一組特定的自變量估計離散值。 換句話說,它通過使用 logit 函數來預測事件的機會。 這就是為什麼它也有 logit 回歸的名稱。

因為邏輯回歸是為分類而設計的,所以它是專家的熱門選擇。 此外,它是了解各種自變量對可能結果的影響的最合適的算法。 它的缺點是它僅適用於可預測的二進制變量,並假設其數據不包含任何缺失值。

支持向量機

在支持向量機中,每個特徵的值都是特定坐標的值,每個項目都是 n 維空間中的一個點。 在這裡,“n”代表您擁有的功能數量。

假設您有兩個特徵,頭髮長度和高度。 在這種情況下,我們首先將這些變量繪製在二維空間中,每個點都有兩個坐標。 我們稱這些坐標為支持向量; 這就是為什麼這個算法被稱為支持向量機。

在我們繪製這些點之後,我們會找到一條線,將數據分成兩個明顯分類的組。 這一行是分類器,我們會根據我們的測試數據在最終結果中所在的那一側來創建類。

結論性想法

在這篇博客中,我們試圖盡可能全面地解釋分類算法。 如果您想了解有關此主題的更多信息,我們建議您訪問我們的博客,其中包含此類有價值的文章。

您還可以訪問我們的機器學習課程目錄以了解有關此主題的更多信息。 我們相信你會發現一些有用的東西。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

為未來的職業做準備

機器學習和人工智能的 PG 文憑
了解更多@升級