R 中的决策树:组件、类型、构建步骤、挑战

已发表: 2020-04-02

“R 中的决策树”是可以做出的选择及其结果的图形表示。 它以图形树的形式表示。 树的不同部分代表决策者的各种活动。 这是一种直观地列出特定行动的不同可能性和结果的有效方式。

目录

为什么我应该在 R 中使用决策树?

您可能会质疑决策树在 R 中的重要性 决策树不仅列出了问题和不同的解决方案,还列出了所有可能的选项。 这些选项可能是决策者在提出更广泛的解决方案时面临的挑战。

它还有助于分析问题的不同可能后果并提前计划。 它提供了一个全面的框架,因此您也可以轻松量化不同结果的价值。 当条件概率出现时,这一点尤其重要。

R中决策树的不同部分是什么?

要理解和解释决策树的含义,您必须了解决策树的不同部分是什么。 当您查看决策树时,您可能会经常遇到这些术语。

  • 节点:树的节点代表已经发生的事件或决策者必须做出的选择。
  • 边缘:这些是设置的不同条件或规则。
  • 根节点:在样本可视化的情况下,这显示了整个总体或样本。
  • 拆分:这是将节点划分为子节点的时候。
  • 决策节点:这些是进一步分裂的特定子节点。
  • 叶:这些是结束词或不分裂的节点。
  • 修剪:这是删除决策节点的子节点。
  • 分支:这些是整个决策树的子部分。

阅读:数据科学与决策科学

如何在 R 中使用决策树?

由于决策树只能在 R 中制作,因此您需要先安装 R。 这可以在网上很快完成。 下载 R 后,您必须创建和可视化包以使用决策树。 一个允许这样做的包是“party”。 当您输入命令install.package(“party”)时,您可以使用决策树表示。 决策树也被认为是复杂的监督算法。

决策树如何在 R 中工作?

当您使用 R 时,决策树更常用于机器学习和数据挖掘。在这种情况下使用的基本元素是观察数据或训练数据。 在此之后,创建一个综合模型。 一组验证数据也用于升级和改进决策树。

了解更多: R 编程中的数据可视化

决策树有哪些不同类型?

最重要的决策树类型是分类树和回归树。 这些通常在输入和输出是分类的情况下使用。

分类树:这些是树模型,其中变量可以采用一组特定的值。 在这些情况下,叶子代表类标签,而分支代表不同特征的连接。 它通常是“是”或“否”类型的树。

回归树:有些决策树有一个可以取连续值的变量。

当您结合上述两种类型的决策树时,您将获得 CART 或分类和回归树。 这是一个总称,您可能会遇到好几次。 这些是指上述程序。 这两者的唯一区别是因变量的类型——分类的或数字的。

在 R 上构建决策树涉及哪些步骤?

第 1 步:导入 - 导入您要分析的数据集。

第 2 步:清理- 必须清理数据集。

第 3 步:创建训练集或测试集——这意味着必须训练算法来预测标签,然后用于推理。
第 4 步:构建模型- 语法 rpart() 用于此目的。 这意味着节点会继续分裂,直到达到无法进一步分裂的点。

第 5 步:预测您的数据集- 在此步骤中使用语法 predict()。

第 6 步:测量性能 -此步骤显示矩阵的准确性。

第 7 步:调整超参数——为了控制拟合的各个方面,决策树具有各种参数。 可以使用 rpart.control() 函数控制参数。

另请阅读: R 初学者教程

在 R 中使用决策树有哪些挑战?

修剪可能是一个乏味的过程,需要仔细进行以获得准确的表示。 即使是很小的变化,也可能存在高度的不稳定性。 因此,它的波动性很大,这对用户来说可能很麻烦,尤其是初学者。 此外,在少数情况下,它可能无法产生理想的结果和结果。

学习世界顶尖大学的数据科学课程获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

包起来

如果您想在了解后果的同时做出最佳选择,请确保您知道如何使用 R 中的决策树。它是可能发生和可能不会发生的情况的示意图。 决策树有几个不同的组件,如上所述。 它是一种流行且功能强大的机器学习算法。

什么是决策树及其类别?

决策树是一种支持工具,具有树状结构,用于对可能的结果、可能的后果、效用以及资源成本进行建模。 借助条件控制语句,决策树可以轻松显示不同的算法。 决策树包括用于表示最终导致有利结果的不同决策步骤的分支。

基于目标变量,有两种主要类型的决策树。

1. 分类变量决策树——在这个决策树中,目标变量被分为不同的类别。 这些类别将决定每个决策过程都属于哪一个类别,并且在任何情况下都没有中间的机会。
2. 连续变量决策树——这个决策树中有一个连续的目标变量。 例如,如果任何人的收入未知,那么可以借助可用的信息(如年龄、职业和任何其他连续变量)来知道它。

决策树有哪些应用?

决策树有两个主要应用。

1. 使用人口统计数据寻找潜在客户 - 任何组织都可以简化其营销预算以做出明智的决策,以便将资金花在正确的地方,并牢记适当的人口统计数据。
2. 评估潜在增长机会——决策树有助于评估历史数据,以评估任何业务的潜在增长机会并帮助扩张。

决策树的优缺点是什么?

优点-

1. 易于阅读和解释 - 即使没有任何统计知识,您也可以轻松阅读和解释决策树的输出。
2.易于准备 - 与任何其他决策技术相比,决策树在数据准备方面需要很少的努力。
3. 对数据清理的要求更少——决策树需要很少的数据清理,因为已经创建了变量。

缺点——

1. 不稳定的性质——最大的限制是决策树与其他决策技术相比是高度不稳定的。 即使数据有微小的变化,也会反映出决策结构的巨大变化。
2. 预测连续变量的结果效率较低 - 当变量必须分为几类时,决策树往往会丢失信息。