贝叶斯网络:简介、示例和实际应用

已发表: 2020-02-23

所有曾经使用过数据或统计数据的人都肯定知道一件事:相关性并不一定意味着或暗示因果关系。 现在,虽然这听起来很明显,但得知数据中的大多数错误是由于这两个术语之间的混淆而发生的,您可能会感到震惊。 这主要是因为虽然定义相关性很方便,但几乎不可能定义或量化因果关系。

事实上,《因果关系:模型、推理和推理》一书的作者朱迪亚·珀尔在书中指出,人类将数学精力集中在概率和统计推理上,而将因果考虑“交给直觉和良好判断力”。 他说,这是我们在科学进步方面仍然大大落后的一个主要因素。

这就是贝叶斯网络使我们变得容易的时候。 它们允许我们同时看到各种独立的原因,从而帮助我们区分相关性和因果关系。 所有这些都是准确完成的,因为机器学习算法不适用于主观性或直觉。 他们处理数据。

让我们看一个例子来了解贝叶斯网络是如何运作的。

目录

贝叶斯网络示例

为了这个例子,让我们假设世界正遭受一种极其罕见但致命的疾病的侵袭; 假设您感染这种疾病的几率是千分之一。

现在,为了确定某人是否患有这种疾病,医生开发了一项测试。 关键是它只有 99% 的准确率。

您如何确定自己是否患有这种疾病? 再做一次测试会影响结果吗?

让我们看看当你进行时会发生什么……

测试 1

由于该疾病仅影响千分之一,因此您被感染的概率为:

已感染0.001
自由0.999

疾病 CPT(条件概率表)

显然,正如千分之一的人有机会患上这种疾病一样,千分之一的人中就有 999 人没有患上这种疾病。

同样,我们将创建一个表格来计算测试的概率。 如前所述,如果测试中的准确率只有 99%。 这意味着结果为真的可能性只有 99%。 负面结果的情况也是如此。

病毒存在已感染自由
测试 1(阳性) 0.99 0.01
测试 1(阴性) 0.01 0.99

Test1 CPT(条件概率表)

现在,让我们绘制一个图表,看看测试结果如何影响疾病的存在。

用测试结果填充这些单元格将为我提供以下结果。

图片来源

如您所见,如果测试结果呈阳性,那么您患上这种疾病的几率只有 9%。

现在,我们是如何得到这个数字的?

贝叶斯定理!

图片来源

在我们的示例中,

P(H|E) = P(H) x P(E|H) / P(E)

  • P(H|E) = P(H) x P(E|H) / {P(E|H) x P(H) + P(E|Hc) x P(Ec)}
  • P(H|E) = (0.99 x 0.001) / (0.001 x 0.99 + 0.999 x 0.01) = 0.9 = 9%

这告诉我们什么?

即使检测呈阳性,由于这种疾病很少见,患上这种疾病的几率也只有 9%。

那么,当您进行另一项测试以确保结果为阳性时会发生什么。

阅读:面向初学者的机器学习项目创意

测试 2

同样,第二次测试也只能达到 99% 的准确率。

病毒存在已感染自由
测试 2(阳性) 0.99 0.01
测试 2(阴性) 0.01 0.99

贝叶斯网络现在将是:

图片来源

结果反转了!

这意味着,如果您在两次测试中获得两个阳性结果,则被病毒感染的几率会从 9% 增加到 91%。 但同样,它并没有说 100%!

现在,如果您从测试中得到一个阳性和一个阴性结果怎么办?

图片来源

如您所见,如果两项测试中的一项为阴性,则您没有患病的可能性为 100%。

测试 3

当您进行三个测试并且所有测试都正确时,它会变得更好。

图片来源

显然,现在,你有 100% 的机会被感染。

现在让我们看看当其中一项测试为阴性而另外两项为阳性时会发生什么。

图片来源

同样,91% 的结果对病毒的存在呈阳性。

贝叶斯网络和数据建模

在上面的示例中,可以看出贝叶斯网络在对数据进行建模以提供准确的结果方面发挥着重要作用。

事实上,通过包含更多可能影响结果的因素来完善网络也允许我们使用贝叶斯网络可视化和模拟不同的场景。

贝叶斯网络也是量化数据不公平性和管理技术以减少这种不公平性的好工具。

在这种情况下,最好使用特定路径的技术来识别影响最终结果的敏感因素。

贝叶斯网络的 5 大实际应用

贝叶斯网络被广泛用于数据科学领域,以在不确定数据的情况下获得准确的结果。

贝叶斯网络的应用

1. 垃圾邮件过滤器

如果您说您从未想过 Gmail 如何过滤垃圾邮件(不需要和不请自来的电子邮件),那您一定是在撒谎。它使用贝叶斯垃圾邮件过滤器,这是最强大的过滤器。

2.涡轮代码

贝叶斯网络用于创建作为高性能前向纠错码的 turbo 码。 这些用于 3G 和 4G 移动网络。

3. 图像处理

贝叶斯网络使用数学运算将图像转换为数字格式。 它还允许图像增强。

4. 生物监测

使用贝叶斯网络量化化学物质的浓度再简单不过了。 在这种情况下,使用指标测量人体的血液和组织量。

5.基因调控网络(GNR)

GNR 包含细胞的各种 DNA 片段,这些片段通过蛋白质和 RNA 表达产物与其他细胞内容物相互作用。 可以使用贝叶斯网络分析对其行为的预测。

结论

在这篇在线博客文章中,您了解了贝叶斯网络如何帮助我们从手头的数据中获得准确的结果。 即使是数据的微小变化也会显着影响最终结果。 贝叶斯网络帮助我们使用因果关系而不是相关性来分析数据。

事实证明,它们在数据科学领域是革命性的。 显然,从事这门科学的职业可以帮助您获得梦想的工作。 所以,报名参加我们的一门数据科学课程,向专家学习吧! 我们还提供来自一流和经验丰富的职业顾问的免费职业支持。 下载手册以了解有关该课程的更多信息。

如果您想了解有关机器学习和人工智能职业的更多信息,请查看 IIT Madras 和 upGrad 的机器学习和云高级认证。

贝叶斯网络的组成部分是什么?

贝叶斯网络起源于贝叶斯定理,该定理以英国著名数学家托马斯·贝叶斯命名。 这个定理本质上是一个用来确定条件概率的数学公式。 人工智能领域的贝叶斯网络源于贝叶斯统计,以贝叶斯定理为基础。 贝叶斯网络由两个模块组成——定量模块中的条件概率和定性模块中的有向无环图。 在人工智能和机器学习中,贝叶斯网络是用于基于不确定信念进行推理和建模的工具。

对于机器学习,您需要了解多少概率和统计信息?

相当一部分人工智能及其不同的子领域是基于概率和统计的。 谈到机器学习,你需要更多地将其视为一个跨学科领域,它采用概率、统计学和各种算法。 统计和概率是数学的相关领域,用于分析事件的相对发生。 这种统计、概率和算法的组合最终用于构建智能应用程序,这些应用程序可以从数据中学习并提供有价值的见解。 因此,如果您想学习机器学习,必须对统计和概率有基本的了解。 您应该熟悉经验和理论概率、联合概率、条件概率、贝叶斯定理、描述性统计、单变量和双变量描述性统计、相关性等基本概念。

在 AI 中使用贝叶斯网络有什么优势?

贝叶斯网络是一种非常流行的技术,用于为复杂和不确定的领域创建模型。 使用贝叶斯网络,您可以为生态系统和环境管理等不确定景观开发数学逻辑和稳健的框架。 使用此技术的最显着优势是您可以轻松地将来自异构来源和不同精度级别的数据合并到数学上一致的模型中。 这有助于将专家知识与没有任何数据的变量的数据相结合。