樸素貝葉斯解釋:功能、優點和缺點、2022 年的應用

已發表: 2021-01-05

樸素貝葉斯是我們用來解決分類問題的機器學習算法。 它基於貝葉斯定理。 它是使用中最簡單但功能最強大的 ML 算法之一,並在許多行業中得到應用。

假設您必須解決分類問題並創建了特徵並生成了假設,但您的上級希望查看模型。 您有大量數據點(數十萬個數據點)和許多變量來訓練數據集。 這種情況的最佳解決方案是使用樸素貝葉斯分類器,與其他分類算法相比,它要快得多。

在本文中,我們將詳細討論此算法並了解其工作原理。 我們還將討論它的優點和缺點以及它的實際應用,以了解該算法的重要性。

加入來自世界頂級大學的在線深度學習課程——碩士、高管研究生課程和 ML 和 AI 高級證書課程,以加快您的職業生涯。

讓我們開始吧:

目錄

樸素貝葉斯解釋

樸素貝葉斯使用貝葉斯定理並假設所有預測變量都是獨立的。 換句話說,這個分類器假設一個類中一個特定特徵的存在不會影響另一個特徵的存在。

這是一個例子:如果水果是圓形的、橙色的並且直徑約為 3.5 英寸,那麼您會認為它是橙色的。 現在,即使這些特徵需要彼此存在,它們都獨立於你假設這種特殊水果是橙色的。 這就是為什麼該算法的名稱中包含“Naive”。

構建樸素貝葉斯模型非常簡單,可以幫助您處理大量數據集。 此外,這個方程在性能方面擊敗了許多先進的分類技術。

這是樸素貝葉斯的方程:

P(c|x) = P(x|c) P(c) / P(x)

P(c|x) = P(x1 | c) x P(x2 | c) x … P(xn | c) x P(c)

這裡,P (c|x) 是根據類別 (c) 的預測變量 (x) 的後驗概率。 P(c) 是類的先驗概率,P(x) 是預測器的先驗概率,P(x|c) 是特定類(c) 的預測器的概率。

除了考慮每個特徵的獨立性之外,樸素貝葉斯還假設它們的貢獻相同。 這是要記住的重要一點。

樸素貝葉斯如何工作?

為了理解樸素貝葉斯是如何工作的,我們應該討論一個例子。

假設我們想要找到被盜汽車並擁有以下數據集:

序列號。 顏色類型起源是偷來的嗎?
1 紅色的運動的國內的是的
2 紅色的運動的國內的
3 紅色的運動的國內的是的
4 黃色的運動的國內的
5 黃色的運動的進口的是的
6 黃色的越野車進口的
7 黃色的越野車進口的是的
8 黃色的越野車國內的
9 紅色的越野車進口的
10 紅色的運動的進口的是的

根據我們的數據集,我們可以理解我們的算法做了以下假設:

  • 它假設每個特徵都是獨立的。 例如,汽車的顏色“黃色”與其原產地或類型無關。
  • 它賦予每個功能相同的重要性。 例如,只知道顏色和原點就可以正確預測結果。 這就是為什麼每個特徵都同樣重要並且對結果的貢獻相同的原因。

現在,使用我們的數據集,我們必鬚根據小偷的特徵對汽車是否偷車進行分類。 每行都有單獨的條目,列代表每輛車的特徵。 在第一排,我們有一輛被盜的國產紅色跑車。 我們將查明小偷是否會偷一輛紅色國產 SUV(我們的數據集沒有紅色國產 SUV 的條目)。

我們可以將示例中的貝葉斯定理重寫為:

P(y | X) = [P(X | y) P(y)P(X)]/P(X)

這裡,y 代表類變量(Was it Stolen?),以顯示竊賊是否不按條件偷車。 X 代表特徵。

X = x1, x2, x3, ...., xn)

這裡,x1, x2,…, xn 代表特徵。 我們可以將它們映射為類型、原點和顏色。 現在,我們將替換 X 並展開鍊式法則得到以下內容:

P(y | x1, ..., xn) = [P(x1 | y) P(x2 | y) .​​.. P(xn | y) P(y)]/[P(x1) P(x2) ... P(xn )]

您可以通過使用數據集並將它們的值放入等式中來獲取每個值。 對於數據集中的每個條目,分母將保持不變,以將其刪除並註入比例。

P(y | x1, ..., xn) ∝ P(y) i = 1nP(xi | y)

在我們的示例中,y 只有兩個結果,是或否。

y = argmaxyP(y) i = 1nP(xi | y)

我們可以創建一個頻率表來計算每個特徵的後驗概率 P(y|x)。 然後,我們將頻率表建模為似然表,並使用樸素貝葉斯方程找到每個類的後驗概率。 我們預測的結果將是具有最高後驗概率的類別。 以下是可能性和頻率表:

顏色頻率表:

顏色是否被盜(是) 是否被盜(否)
紅色的3 2
黃色的2 3

顏色的似然表:

顏色是不是被偷了[P(Yes)] 是不是被偷了[P(No)]
紅色的3/5 2/5
黃色的2/5 3/5

頻率類型表:

類型是否被盜(是) 是否被盜(否)
運動的4 2
越野車1 3

類型的似然表:

類型是不是被偷了[P(Yes)] 是不是被偷了[P(No)]
運動的4/5 2/5
越野車1/5 3/5

產地頻率表:

起源是否被盜(是) 是否被盜(否)
國內的2 3
進口的3 2

起源的可能性表:

起源是不是被偷了[P(Yes)] 是不是被偷了[P(No)]
國內的2/5 3/5
進口的3/5 2/5

我們的問題對 X 有 3 個預測變量,因此根據我們之前看到的方程,後驗概率 P(Yes | X) 如下:

P(是 | X) = P(紅色 | 是) * P(SUV | 是) * P(國內 | 是) * P(是)

= ⅗ x ⅕ x ⅖ x 1

= 0.048

P(No | X) 將是:

P(No | X) = P(Red | No) * P(SUV | No) * P(國內| No) * P(No)

= ⅖ x ⅗ x ⅗ x 1

= 0.144

因此,由於後驗概率 P(No | X) 高於後驗概率 P(Yes | X),我們的紅色國產 SUV 將在“是否被盜?”中顯示“否”。 部分。

該示例應該向您展示了樸素貝葉斯分類器的工作原理。 為了更好地理解樸素貝葉斯的解釋,我們現在應該討論它的優缺點:

樸素貝葉斯的優缺點

優點

  • 該算法運行迅速,可以節省大量時間。
  • 樸素貝葉斯適用於解決多類預測問題。
  • 如果它對特徵獨立性的假設成立,它可以比其他模型表現得更好,並且需要更少的訓練數據。
  • 樸素貝葉斯比數值變量更適合分類輸入變量。

缺點

  • 樸素貝葉斯假設所有預測變量(或特徵)都是獨立的,在現實生活中很少發生。 這限制了該算法在實際用例中的適用性。
  • 該算法面臨“零頻率問題”,它將零概率分配給分類變量,該分類變量在測試數據集中的類別在訓練數據集中不可用。 最好使用平滑技術來解決這個問題。
  • 在某些情況下,它的估計可能是錯誤的,所以你不應該非常認真地對待它的概率輸出。

結帳:機器學習模型解釋

樸素貝葉斯的應用解釋

以下是該算法可以找到應用的一些領域:

文本分類

大多數時候,樸素貝葉斯發現使用文本分類是因為它在解決多類問題時具有獨立性和高性能的假設。 由於其速度和效率,它比其他算法具有更高的成功率。

情緒分析

機器學習最突出的領域之一是情感分析,該算法在那裡也非常有用。 情緒分析側重於識別客戶對某個主題(產品或服務)的看法是積極的還是消極的。

推薦系​​統

在協同過濾的幫助下,樸素貝葉斯分類器構建了一個強大的推薦系統來預測用戶是否喜歡特定的產品(或資源)。 亞馬遜、Netflix 和 Flipkart 是使用推薦系統向客戶推薦產品的知名公司。

了解更多機器學習算法

樸素貝葉斯是一種簡單有效的機器學習算法,用於解決多類問題。 它在機器學習應用的許多突出領域都有用,例如情感分析和文本分類。

查看 IIT Madras 的機器學習和雲高級認證計劃,這是該國最好的工程學校,創建一個計劃,不僅可以教您機器學習,還可以使用雲基礎設施進行有效部署。 我們通過該計劃的目標是打開該國最具選擇性的學院的大門,並讓學習者獲得驚人的師資和資源,以掌握高增長的技能

什麼是樸素貝葉斯算法?

為了處理分類困難,我們採用樸素貝葉斯機器學習技術。 貝葉斯定理支持它。 它是使用中最基本但功能最強大的機器學習算法之一,在各個行業都有應用。 假設您正在研究一個分類問題,並且您已經建立了特徵和假設,但您的老闆想查看模型。 要訓練數據集,您需要大量數據點(數千個數據點)和大量變量。 比其他分類算法快得多的樸素貝葉斯分類器將是這種情況下的最佳選擇。

樸素貝葉斯有哪些優點和缺點?

對於多類預測問題,樸素貝葉斯是一個不錯的選擇。 如果特徵獨立性的前提仍然成立,它可以在使用少得多的訓練數據的情況下勝過其他模型。 分類輸入變量比數值輸入變量更適合樸素貝葉斯。

在樸素貝葉斯中,假設所有預測變量(或特徵)都是獨立的,這在現實生活中很少見。 這限制了算法在現實世界場景中的可用性。 您不應該認真對待它的概率輸出,因為它的估計在某些情況下可能會偏離。

樸素貝葉斯有哪些實際應用?

樸素貝葉斯由於在處理多類問題時具有自治性和高性能的前提,經常被用於文本分類。 情感分析是機器學習最流行的應用之一,這種技術也可以幫助解決這個問題。 情緒分析的目標是確定客戶對特定問題(產品或服務)是否有正面或負面的感覺。 樸素貝葉斯分類器使用協同過濾來創建一個複雜的推薦系統,該系統可以預測用戶是否會喜歡給定的產品(或資源)。