多项式朴素贝叶斯解释:功能、优点和缺点、2022 年的应用

已发表: 2021-01-03

目录

介绍

有数以千计的软件或工具用于分析数值数据,但用于文本的却很少。 多项式朴素贝叶斯是最流行的监督学习分类之一,用于分析分类文本数据。

文本数据分类越来越受欢迎,因为电子邮件、文档、网站等中有大量信息需要分析。 了解特定类型文本的上下文有助于找到将要使用它的用户对软件或产品的看法。

本文将使您深入了解多项朴素贝叶斯算法以及与之相关的所有概念。 我们简要概述了该算法、它的工作原理、它的好处和它的应用。

什么是多项朴素贝叶斯算法?

多项式朴素贝叶斯算法是一种概率学习方法,主要用于自然语言处理 (NLP)。 该算法基于贝叶斯定理并预测文本的标签,例如一封电子邮件或报纸文章。 它计算给定样本的每个标签的概率,然后给出概率最高的标签作为输出。

朴素贝叶斯分类器是许多算法的集合,其中所有算法都有一个共同的原则,即被分类的每个特征都与任何其他特征无关。 一个特征的存在与否不会影响另一个特征的存在与否。

加入来自世界顶级大学的在线机器学习培训——机器学习和人工智能领域的硕士、高级管理人员研究生课程和高级证书课程,以加快您的职业生涯。

多项朴素贝叶斯如何工作?

朴素贝叶斯是一种功能强大的算法,用于文本数据分析和多类问题。 要了解朴素贝叶斯定理的工作原理,首先要了解贝叶斯定理的概念,因为它基于后者。

贝叶斯定理,由托马斯贝叶斯制定,根据与事件相关的条件的先验知识计算事件发生的概率。 它基于以下公式:

P(A|B) = P(A) * P(B|A)/P(B)

当已经提供预测器 B 时,我们正在计算 A 类的概率。

P(B) = B 的先验概率

P(A) = A 类的先验概率

P(B|A) = 给定 A 类概率的预测变量 B 的出现

这个公式有助于计算文本中标签的概率。

让我们通过一个例子来理解朴素贝叶斯算法。 在下表中,我们采用了晴天、阴天和雨天的天气条件数据集。 现在,我们需要根据天气情况来预测玩家是否上场的概率。

必读:朴素贝叶斯简介

训练数据集

天气晴天灰蒙蒙下雨晴天晴天灰蒙蒙下雨下雨晴天下雨晴天灰蒙蒙灰蒙蒙下雨
是的是的是的是的是的是的是的是的是的

这可以通过以下给定的步骤轻松计算:

创建上述问题陈述中给出的训练数据集的频率表。 根据相应的天气条件列出所有天气条件的计数。

天气是的
晴天3 2
灰蒙蒙4 0
下雨2 3
全部的9 5

找出每种天气状况的概率并创建一个可能性表。

天气是的
晴天3 2 =5/14(0.36)
灰蒙蒙4 0 =4/14(0.29)
下雨2 3 =5/14(0.36)
全部的9 5
=9/14 (0.64) =5/14 (0.36)

使用朴素贝叶斯定理计算每种天气条件的后验概率。 概率最高的天气状况将是球员是否参加比赛的结果。

使用以下等式计算所有天气条件的后验概率:

P(A|B) = P(A) * P(B|A)/P(B)

替换上式中的变量后,我们得到:

P(是|晴天) = P(是) * P(晴天|是) / P(晴天)

从上面的似然表中取值并把它放在上面的公式中。

P(晴天|是)= 3/9 = 0.33,P(是)= 0.64 和 P(晴天)= 0.36

因此,P(Yes|Sunny) = (0.64*0.33)/0.36 = 0.60

P(否|晴) = P(否) * P(晴|否) / P(晴)

从上面的似然表中取值并把它放在上面的公式中。

P(晴天|否)= 2/5 = 0.40,P(否)= 0.36 和 P(晴天)= 0.36

P(无|晴天) = (0.36*0.40)/0.36 = 0.6 = 0.40

在阳光明媚的天气条件下比赛的概率更高。 因此,如果天气晴朗,玩家将进行游戏。

同样,我们可以计算雨天和阴天条件的后验概率,并基于最高概率; 我们可以预测玩家是否会玩。

结帐:机器学习模型解释

优点

朴素贝叶斯算法具有以下优点:

  • 它很容易实现,因为您只需要计算概率。
  • 您可以在连续数据和离散数据上使用此算法。
  • 它很简单,可用于预测实时应用程序。
  • 它具有高度可扩展性,可以轻松处理大型数据集。

缺点

朴素贝叶斯算法有以下缺点:

  • 该算法的预测精度低于其他概率算法。
  • 它不适合回归。 朴素贝叶斯算法仅用于文本数据分类,不能用于预测数值。

应用

朴素贝叶斯算法用在以下地方:

  • 人脸识别
  • 天气预报
  • 医疗诊断
  • 垃圾邮件检测
  • 年龄/性别识别
  • 语言识别
  • 情感分析
  • 作者身份识别
  • 新闻分类

结论

值得学习多项朴素贝叶斯算法,因为它在多个行业有如此多的应用,并且该算法做出的预测非常快。 新闻分类是朴素贝叶斯算法最流行的用例之一。 它被高度用于将新闻分类为不同的部分,例如政治、区域、全球等。

本文涵盖了开始使用多项朴素贝叶斯算法和朴素贝叶斯分类器逐步工作时应该知道的所有内容。

如果您有兴趣了解有关 AI、机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和 AI 执行 PG 计划,该计划专为在职专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业,IIIT-B 校友身份,5 个以上实用的实践顶点项目和顶级公司的工作协助。

多项式朴素贝叶斯算法是什么意思?

多项式朴素贝叶斯算法是自然语言处理 (NLP) 中流行的贝叶斯学习方法。 该程序使用贝叶斯定理猜测文本的标签,例如电子邮件或报纸故事。 它计算给定样本的每个标签的可能性,并以最大的机会输出标签。 朴素贝叶斯分类器由许多算法组成,这些算法都有一个共同点:被分类的每个特征都与任何其他特征无关。 一个特征的存在与否与另一个特征的包含或排除无关。

多项式朴素贝叶斯算法如何工作?

朴素贝叶斯方法是分析文本输入和解决大量类问题的强大工具。 因为朴素贝叶斯定理是基于贝叶斯定理的,所以有必要首先理解贝叶斯定理的概念。 贝叶斯定理是由托马斯贝叶斯开发的,它根据对事件条件的先验知识来估计发生的可能性。 当预测器 B 本身可用时,我们计算 A 类的可能性。它基于以下公式:P(A|B) = P(A) * P(B|A)/P(B)。

多项式朴素贝叶斯算法的优缺点是什么?

它很容易实现,因为您所要做的就是计算概率。 这种方法适用于连续数据和离散数据。 它很简单,可用于预测实时应用程序。 它具有很强的可扩展性,可以轻松处理大量数据集。

该算法的预测精度低于其他概率算法。 它不适合回归。 朴素贝叶斯技术只能用于对文本输入进行分类,不能用于估计数值。