随机森林与决策树:随机森林与决策树的区别

已发表: 2020-12-30

最近的进步为多种算法的发展铺平了道路。 这些新的和惊人的算法已经让数据着火了。 它们有助于有效地处理数据并做出决策。 由于世界正在处理互联网热潮。 几乎所有东西都在互联网上。 为了处理这些数据,我们需要严格的算法来做出决策和解释。 现在,在存在大量算法的情况下,选择最适合的算法是一项艰巨的任务。

大多数组织都广泛使用决策算法。 他们必须每隔一小时就做出一些琐碎和重大的决定。 通过分析选择哪种材料来获得高总面积,后端正在做出决定。 最近 python 和 ML 的进步推动了处理数据的标准。 因此,数据大量存在。 阈值取决于组织。 有两种广泛使用的主要决策算法。 决策树和随机森林 - 听起来很熟悉,对吧?

树木和森林!

让我们用一个简单的例子来探讨一下。

假设您必须购买一包卢比。 10块甜饼干。 现在,您必须从几个饼干品牌中选择一个。

你选择一个决策树算法。 现在,它将检查卢比。 10包,很甜。 它可能会选择最畅销的饼干。 您将决定购买卢比。 10块巧克力饼干。 你很快乐!

但是你的朋友使用了随机森林算法。 现在,他已经做出了几个决定。 此外,选择多数决定。 他选择了各种草莓、香草、蓝莓和橙子口味。 他检查了一个特定的卢比。 10 包比原来的多送达 3 个单位。 它是在香草巧克力中供应的。 他买了那个香草巧克力饼干。 他是最快乐的,而你却为你的决定感到后悔。

加入来自世界顶级大学的机器学习在线课程——硕士、高管研究生课程和 ML 和 AI 高级证书课程,以加快您的职业生涯。

目录

决策树和随机森林有什么区别?

1. 决策树

资源

决策树是一种用于机器学习的监督学习算法。 它在分类和回归算法中运行。 顾名思义,它就像一棵有节点的树。 分支取决于标准的数量。 它将数据拆分成这样的分支,直到达到阈值单位。 决策树有根节点、子节点和叶节点。

递归用于遍历节点。 您不需要其他算法。 它可以准确地处理数据,并且最适合线性模式。 它可以轻松处理大数据并且花费更少的时间。

它是如何工作的?

1.拆分

数据在提供给决策树时,会在分支下分成不同的类别。

必读:朴素贝叶斯分类器:优点和缺点,应用程序和类型解释

2. 修剪

修剪是进一步切碎这些树枝。 它作为一种分类来以更好的方式补贴数据。 就像我们说修剪多余部分的方式一样,它的工作原理是一样的。 到达叶节点,修剪结束。 它是决策树中非常重要的一部分。

3. 树木的选择

现在,您必须选择可以顺利处理数据的最佳树。

以下是需要考虑的因素:

4.熵

为了检查树的同质性,需要推断熵。 如果熵为零,则它是同质的; 否则不是。

5. 知识增益

一旦熵减少,就获得了信息。 此信息有助于进一步拆分分支。

  • 您需要计算熵。
  • 根据不同的标准拆分数据
  • 选择最佳信息。

树的深度是一个重要方面。 深度告诉我们在得出结论之前需要做出多少决定。 浅深度树在决策树算法中表现更好。

决策树的优缺点

优点

  1. 简单
  2. 透明的过程
  3. 处理数字和分类数据
  4. 数据越大,结果越好
  5. 速度

缺点

  1. 可能过拟合
  2. 修剪过程大
  3. 优化无保证
  4. 复杂的计算
  5. 偏转高

结帐:机器学习模型解释

2. 随机森林

资源

它也用于监督学习,但非常强大。 它的使用非常广泛。 基本区别在于它不依赖于单一的决定。 它根据几个决定组合随机决定,并根据多数做出最终决定。

它不搜索最佳预测。 相反,它会做出多个随机预测。 因此,附加了更多的多样性,并且预测变得更加平滑。

您可以推断随机森林是多个决策树的集合!

Bagging 是在决策并行工作时建立随机森林的过程。

1. 装袋

  • 取一些训练数据集
  • 制作决策树
  • 重复该过程一段时间
  • 现在进行主要投票。 获胜的是您的决定。

2. 自举

自举是从训练数据中随机选择样本。 这是一个随机程序。

一步步

  • 随机选择条件
  • 计算根节点
  • 分裂
  • 重复
  • 你得到一片森林

阅读:朴素贝叶斯解释

随机森林的优缺点

优点
  1. 功能强大且高度准确
  2. 无需标准化
  3. 可以同时处理多个功能
  4. 以并行方式运行树
缺点
  1. 他们有时偏向于某些特征
  2. 不能用于线性方法
  3. 对高维数据更糟

结论

与随机森林相比,决策树非常容易。 决策树组合了一些决策,而随机森林组合了几个决策树。 因此,这是一个漫长而缓慢的过程。

然而,决策树在大型数据集(尤其是线性数据集)上运行速度快且易于操作。 随机森林模型需要严格的训练。 当您尝试建立一个项目时,您可能需要多个模型。 因此,大量的随机森林,更多的时间。

这取决于您的要求。 如果您在模型上工作的时间较少,那么您一定会选择决策树。 然而,稳定性和可靠的预测在随机森林的篮子中。

如果您有热情并想了解更多关于人工智能的信息,您可以参加IIIT-B 和 upGrad 的机器学习和深度学习 PG 文凭,该文凭提供 400 多个小时的学习、实践课程、工作帮助等等。

随机森林与普通决策树有何不同?

在机器学习中,决策树是一种监督学习技术。 它能够使用分类和回归技术。 顾名思义,它类似于带有节点的树。 标准的数量决定了分支。 它将数据分成这些分支,直到达到阈值单元。 决策树中有根节点、子节点和叶节点。 随机森林也用于监督学习,虽然它有很大的威力。 它很受欢迎。 主要区别在于它不依赖于单个决定。 它根据许多决策组合随机决策,然后根据多数创建最终决策。

与单一决策树相比,使用随机森林的主要优势是什么?

在理想的世界中,我们希望减少与偏差相关和与方差相关的错误。 随机森林很好地解决了这个问题。 随机森林只不过是一系列决策树,它们的发现组合成一个最终结果。 它们之所以如此强大,是因为它们能够减少过度拟合,而不会因偏差而大量增加错误。 另一方面,随机森林是一种强大的建模工具,比单个决策树更具弹性。 它们结合了许多决策树来减少过度拟合和与偏差相关的不准确性,从而产生可用的结果。

决策树的局限性是什么?

决策树的缺点之一是,与其他选择预测器相比,它们非常不稳定。 数据的微小变化可能会导致决策树结构发生重大变化,从而导致结果与消费者在典型事件中的预期不同。 此外,当主要目的是预测连续变量的结果时,决策树对预测的帮助较小。