多項式樸素貝葉斯解釋:功能、優點和缺點、2022 年的應用

已發表: 2021-01-03

目錄

介紹

有數以千計的軟件或工具用於分析數值數據,但用於文本的卻很少。 多項式樸素貝葉斯是最流行的監督學習分類之一,用於分析分類文本數據。

文本數據分類越來越受歡迎,因為電子郵件、文檔、網站等中有大量信息需要分析。 了解特定類型文本的上下文有助於找到將要使用它的用戶對軟件或產品的看法。

本文將使您深入了解多項樸素貝葉斯算法以及與之相關的所有概念。 我們簡要概述了該算法、它的工作原理、它的好處和它的應用。

什麼是多項樸素貝葉斯算法?

多項式樸素貝葉斯算法是一種概率學習方法,主要用於自然語言處理 (NLP)。 該算法基於貝葉斯定理並預測文本的標籤,例如一封電子郵件或報紙文章。 它計算給定樣本的每個標籤的概率,然後給出概率最高的標籤作為輸出。

樸素貝葉斯分類器是許多算法的集合,其中所有算法都有一個共同的原則,即被分類的每個特徵都與任何其他特徵無關。 一個特徵的存在與否不會影響另一個特徵的存在與否。

加入來自世界頂級大學的在線機器學習培訓——機器學習和人工智能領域的碩士、高級管理人員研究生課程和高級證書課程,以加快您的職業生涯。

多項樸素貝葉斯如何工作?

樸素貝葉斯是一種功能強大的算法,用於文本數據分析和多類問題。 要了解樸素貝葉斯定理的工作原理,首先要了解貝葉斯定理的概念,因為它基於後者。

貝葉斯定理,由托馬斯貝葉斯制定,根據與事件相關的條件的先驗知識計算事件發生的概率。 它基於以下公式:

P(A|B) = P(A) * P(B|A)/P(B)

當已經提供預測器 B 時,我們正在計算 A 類的概率。

P(B) = B 的先驗概率

P(A) = A 類的先驗概率

P(B|A) = 給定 A 類概率的預測變量 B 的出現

這個公式有助於計算文本中標籤的概率。

讓我們通過一個例子來理解樸素貝葉斯算法。 在下表中,我們採用了晴天、陰天和雨天的天氣條件數據集。 現在,我們需要根據天氣情況來預測玩家是否上場的概率。

必讀:樸素貝葉斯簡介

訓練數據集

天氣晴天灰濛蒙下雨晴天晴天灰濛蒙下雨下雨晴天下雨晴天灰濛蒙灰濛蒙下雨
是的是的是的是的是的是的是的是的是的

這可以通過以下給定的步驟輕鬆計算:

創建上述問題陳述中給出的訓練數據集的頻率表。 根據相應的天氣條件列出所有天氣條件的計數。

天氣是的
晴天3 2
灰濛蒙4 0
下雨2 3
全部的9 5

找出每種天氣狀況的概率並創建一個可能性表。

天氣是的
晴天3 2 =5/14(0.36)
灰濛蒙4 0 =4/14(0.29)
下雨2 3 =5/14(0.36)
全部的9 5
=9/14 (0.64) =5/14 (0.36)

使用樸素貝葉斯定理計算每種天氣條件的後驗概率。 概率最高的天氣狀況將是球員是否參加比賽的結果。

使用以下等式計算所有天氣條件的後驗概率:

P(A|B) = P(A) * P(B|A)/P(B)

替換上式中的變量後,我們得到:

P(是|晴天) = P(是) * P(晴天|是) / P(晴天)

從上面的似然表中取值並把它放在上面的公式中。

P(晴天|是)= 3/9 = 0.33,P(是)= 0.64 和 P(晴天)= 0.36

因此,P(Yes|Sunny) = (0.64*0.33)/0.36 = 0.60

P(否|晴) = P(否) * P(晴|否) / P(晴)

從上面的似然表中取值並把它放在上面的公式中。

P(晴天|否)= 2/5 = 0.40,P(否)= 0.36 和 P(晴天)= 0.36

P(無|晴天) = (0.36*0.40)/0.36 = 0.6 = 0.40

在陽光明媚的天氣條件下比賽的概率更高。 因此,如果天氣晴朗,玩家將進行遊戲。

同樣,我們可以計算雨天和陰天條件的後驗概率,並基於最高概率; 我們可以預測玩家是否會玩。

結帳:機器學習模型解釋

優點

樸素貝葉斯算法具有以下優點:

  • 它很容易實現,因為您只需要計算概率。
  • 您可以在連續數據和離散數據上使用此算法。
  • 它很簡單,可用於預測實時應用程序。
  • 它具有高度可擴展性,可以輕鬆處理大型數據集。

缺點

樸素貝葉斯算法有以下缺點:

  • 該算法的預測精度低於其他概率算法。
  • 它不適合回歸。 樸素貝葉斯算法僅用於文本數據分類,不能用於預測數值。

應用

樸素貝葉斯算法用在以下地方:

  • 人臉識別
  • 天氣預報
  • 醫療診斷
  • 垃圾郵件檢測
  • 年齡/性別識別
  • 語言識別
  • 情感分析
  • 作者身份識別
  • 新聞分類

結論

值得學習多項樸素貝葉斯算法,因為它在多個行業有如此多的應用,並且該算法做出的預測非常快。 新聞分類是樸素貝葉斯算法最流行的用例之一。 它被高度用於將新聞分類為不同的部分,例如政治、區域、全球等。

本文涵蓋了開始使用多項樸素貝葉斯算法和朴素貝葉斯分類器逐步工作時應該知道的所有內容。

如果您有興趣了解有關 AI、機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和 AI 執行 PG 計劃,該計劃專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業,IIIT-B 校友身份,5 個以上實用的實踐頂點項目和頂級公司的工作協助。

多項式樸素貝葉斯算法是什麼意思?

多項式樸素貝葉斯算法是自然語言處理 (NLP) 中流行的貝葉斯學習方法。 該程序使用貝葉斯定理猜測文本的標籤,例如電子郵件或報紙故事。 它計算給定樣本的每個標籤的可能性,並以最大的機會輸出標籤。 樸素貝葉斯分類器由許多算法組成,這些算法都有一個共同點:被分類的每個特徵都與任何其他特徵無關。 一個特徵的存在與否與另一個特徵的包含或排除無關。

多項式樸素貝葉斯算法如何工作?

樸素貝葉斯方法是分析文本輸入和解決大量類問題的強大工具。 因為樸素貝葉斯定理是基於貝葉斯定理的,所以有必要首先理解貝葉斯定理的概念。 貝葉斯定理是由托馬斯貝葉斯開發的,它根據對事件條件的先驗知識來估計發生的可能性。 當預測器 B 本身可用時,我們計算 A 類的可能性。它基於以下公式:P(A|B) = P(A) * P(B|A)/P(B)。

多項式樸素貝葉斯算法的優缺點是什麼?

它很容易實現,因為您所要做的就是計算概率。 這種方法適用於連續數據和離散數據。 它很簡單,可用於預測實時應用程序。 它具有很強的可擴展性,可以輕鬆處理大量數據集。

該算法的預測精度低於其他概率算法。 它不適合回歸。 樸素貝葉斯技術只能用於對文本輸入進行分類,不能用於估計數值。