朴素贝叶斯分类器：优点和缺点，应用程序和类型解释

已发表: 2020-12-11

当你需要一个快速解决问题的算法时，你会去哪里？你去朴素贝叶斯分类器。这是一种快速简单的算法，可以解决各种分类问题。在这篇文章中，我们将了解这个算法是什么，它是如何工作的，以及它的品质是什么。让我们开始吧。

什么是朴素贝叶斯分类器？

朴素贝叶斯分类器根据贝叶斯定理将数据分成不同的类别，同时假设所有预测变量相互独立。它假定类中的特定特征与其他特征的存在无关。

例如，如果水果是绿色的、圆形的并且直径为 10 英寸，您可以将其视为西瓜。这些特征的存在可能相互依赖，但它们中的每一个都独立地影响了所考虑的水果是西瓜的概率。这就是为什么这个分类器的名称中有“朴素”一词。

该算法非常流行，因为它甚至可以胜过非常先进的分类技术。此外，它非常简单，您可以快速构建它。

这是贝叶斯定理，它是该算法的基础：

P(c | x) = P(x | c) P(c)/ P(x)

在这个等式中，“c”代表类，“x”代表属性。 P(c/x) 代表根据预测器分类的后验概率。 P(x) 是预测器的先验概率，P(c) 是类的先验概率。 P(x/c) 根据类别显示预测变量的概率。

阅读：朴素贝叶斯解释

朴素贝叶斯的优点

该算法运行速度非常快，可以轻松预测测试数据集的类别。
您可以使用它来解决多类预测问题，因为它对它们非常有用。
如果特征独立的假设成立，朴素贝叶斯分类器的性能优于其他训练数据较少的模型。
如果您有分类输入变量，与数值变量相比，朴素贝叶斯算法的性能非常好。

朴素贝叶斯的缺点

如果您的测试数据集具有训练数据集中不存在的类别的分类变量，则朴素贝叶斯模型将为其分配零概率，并且无法在这方面做出任何预测。这种现象称为“零频率”，您必须使用平滑技术来解决此问题。
该算法作为一个糟糕的估计器也是臭名昭著的。所以，你不应该太认真地对待“predict_proba”的概率输出。
它假设所有特征都是独立的。虽然理论上听起来不错，但在现实生活中，您几乎找不到一组独立的功能。

朴素贝叶斯算法的应用

正如您必须注意到的那样，该算法为其用户提供了很多优势。这就是为什么它在各个领域也有很多应用。以下是朴素贝叶斯算法的一些应用：

由于该算法快速高效，您可以使用它进行实时预测。
该算法在多类预测中很流行。使用此算法，您可以轻松找到多个目标类别的概率。
电子邮件服务（如 Gmail）使用此算法来确定电子邮件是否为垃圾邮件。该算法非常适合垃圾邮件过滤。
它对特征独立性的假设，以及解决多类问题的有效性，使其非常适合执行情感分析。情绪分析是指识别目标群体（客户、观众等）的正面或负面情绪。
协同过滤和朴素贝叶斯算法共同构建推荐系统。这些系统使用数据挖掘和机器学习来预测用户是否想要特定资源。

另请阅读：机器学习模型解释

朴素贝叶斯分类器的类型

该算法有多种。以下是主要的：

伯努利朴素贝叶斯

在这里，预测变量是布尔变量。因此，您拥有的唯一值是“真”和“假”（您也可以拥有“是”或“否”）。当数据根据多元伯努利分布时，我们使用它。

多项朴素贝叶斯

人们使用这种算法来解决文档分类问题。例如，如果您想确定文档属于“法律”类别还是“人力资源”类别，您可以使用此算法对其进行排序。它使用当前单词的频率作为特征。

高斯朴素贝叶斯

如果预测变量不是离散的而是具有连续值，我们假设它们是来自高斯分布的样本。

结论

我们希望您发现这篇文章很有用。如果您对朴素贝叶斯算法有任何疑问，请随时在评论部分分享。我们很乐意听取您的意见。

如果您有兴趣了解更多关于人工智能、机器学习的信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为在职专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业， IIIT-B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

朴素贝叶斯的局限性是什么？

朴素贝叶斯分类器是一种算法，用于使用一组已知的训练数据对新数据实例进行分类。这是一个很好的分类算法；但是，特征的数量必须等于数据中的属性数量。当用于对大量项目进行分类时，计算成本很高。它不适用于数值数据。它只有在功能相互独立时才能工作。当特征值是名义值时，它是不合适的。它要求特征值是互斥的。它要求特征值的频率与它们正确的概率成正比。

朴素贝叶斯分类器最大的优点和缺点是什么？

朴素贝叶斯的最大优势在于它可以处理非常小的数据集。它是最流行的垃圾邮件过滤算法之一。而且，实现起来也比较简单。它几乎总是被用作分类器。如果数据集不可用，仍然可以将其用作分类算法。该算法用于电子邮件垃圾邮件过滤，谷歌也使用它对网页进行分类。但是，它在更复杂的分类问题中可能没有那么有效。它只有在功能相互独立时才能工作。

如何在朴素贝叶斯中停止过度拟合？

过度拟合的一个原因是训练数据错误。如果您有一个包含大量噪声的训练数据集并且您有很多训练示例，则分类器将查看训练数据中的噪声，而不是您尝试为其构建模型的底层模式。另一个原因是你的模型太复杂了。如果您有一个模型，其中输入的微小变化会导致输出的巨大变化，您可能会过度拟合。另一种解决方案是使用正则化。正则化将缩小模型中的长分支。它可以平滑您的模型并防止过度拟合。