决策树算法指南：应用、优缺点和示例

已发表: 2020-12-10

机器学习算法有很多种，每一种都有独特的应用。在本文中，我们将了解最流行和最有用的机器学习算法之一，决策树算法。我们已经讨论了 R 中决策树的示例，以帮助您熟悉其用法。让我们开始吧。

什么是决策树算法？

决策树是一种有监督的机器学习算法，具有根节点和叶节点。每个节点代表一个特征，节点之间的链接显示决策。每片叶子都代表一个结果。

假设你想去市场买蔬菜。你有两个选择：要么去，要么不去。如果你不去，你就买不到蔬菜，但如果你去了，你就不得不去市场，这就导致了另一个选择。决策树就是这样工作的。

决策树应用

以下是决策树的一些应用：

营销：

企业可以使用决策树通过观察竞争对手产品和服务的表现来提高其促销活动的准确性。决策树可以帮助细分受众并支持企业制作具有更高转化率的更有针对性的广告。

客户保留：

公司通过分析他们的行为并发布新的优惠或产品以适应这些行为，使用决策树来留住客户。通过使用决策树模型，公司还可以计算出客户的满意度。

疾病诊断：

决策树可以帮助医生和医疗专业人员识别患糖尿病或痴呆等严重（或可预防）疾病风险较高的患者。在这种情况下，决策树根据特定变量缩小可能性的能力非常有用。

欺诈检测：

公司可以通过使用决策树预先识别欺诈行为来防止欺诈。它可以为公司节省大量资源，包括时间和金钱。

决策树的优缺点

决策树算法的优点：

以下是在 R 中使用决策树的主要优点：

比其他模型更容易理解结果。您可以让技术团队对您的决策树模型进行编程，使其运行速度更快，并且您可以将其应用于新实例。它的计算根据一个实例进行包含测试，这是一个定性或定量模型。
它是非参数的。由于这个原因，我们问题中存在的自变量不必遵循任何特定的概率分布。你可以有共线变量。无论他们是否具有歧视性，它都不会影响您的决策树，因为它不必选择这些变量。
他们能够处理缺失值。 CHAID 将所有缺失值放在一个类别中，您可以将其与另一个类别合并或与其他类别分开。
极端的个体值（例如异常值）对决策树没有太大影响。您可以将它们隔离在小节点中，这样它们就不会影响整个分类。
它为您提供了决策过程的出色视觉表示。决策树的每个分支都代表可能影响您决策的因素，您可以看到更大的图景。您可以使用决策树来改善团队中的沟通。
CART 树可以直接处理所有变量类型，包括定性、连续和离散变量。

决策树算法的缺点

它不会同时分析所有自变量。相反，它会按顺序评估它们。因此，树永远不会在任何级别修改节点的划分，这可能会导致树的选择出现偏差。
如果它靠近顶部，即使修改单个变量也会影响整个树。有办法解决这个问题。例如，您可以在多个样本上构建树并根据均值（或投票）聚合它们；这称为重采样。但是，它会导致另一组问题，因为它通过使模型更复杂而降低了模型的可读性。因此，通过重采样，您可以摆脱决策树的最佳品质。为什么会出现问题？假设一个变量具有特定组的所有特性，但它也具有树分裂所依据的特性。在这种情况下，这棵树会因为它具有重要的品质而将其归入错误的类别。
决策树中特定级别的所有节点都依赖于其先前级别中的节点。换句话说，您如何定义级别“n +1”上的节点完全取决于您对级别“n”上的节点的定义。如果您在级别“n”的定义是错误的，那么所有后续级别和这些级别中存在的节点也将是错误的。

学习：机器学习中的线性回归

R中的决策树（示例）

您需要 rpart 在 R 中构建决策树。我们使用 rpart 进行分类。在 R 中，您基于生成决策的递归分区算法构建决策树，以及随之而来的回归树。它有两个步骤：

首先，它将识别一个变量，以尽可能最好的方式将数据分成两个单独的组。
其次，它将在每个子组上重复上一步中的过程，直到这些组达到特定大小或者如果它不能再对这些子组进行改进。

我们以以下数据为例：

在上面的数据中，你有一辆自行车的时间和加速度。我们必须根据时间预测它的加速度。我们将通过执行以下操作来做到这一点：

1个图书馆（rpart）

然后加载数据：

1个数据（自行车）

现在，我们将创建一个散点图：

1情节（加速〜次，数据=自行车）

有一次，我们已经完成了，我们将创建树：

1mct <- rpart（加速〜次，数据=自行车）

我们的最后一步是绘制图表：

1地块(mct)

阅读：如何创建完美的决策树？

最后的想法

我们现在在 R 中有一个完美的决策树模型。您可以在我们的博客上找到更多类似的教程。

如果您有兴趣了解有关决策树、机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为在职专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业，IIIT-B 校友身份，5 个以上实用的实践顶点项目和顶级公司的工作协助。

决策树算法中最重要的特征是什么？

决策树算法是用于决策和风险分析的宝贵工具，通常表示为图表或规则列表。使用决策树算法的简单性是其最基本的特征之一。由于它们是可视的，因此它们易于理解和相关。即使用户不熟悉决策树算法的构建，也可以成功应用。决策树算法最常用于根据先前的经验预测未来事件并帮助做出理性决策。决策树算法的另一个重要领域是数据挖掘，其中决策树被用作分类和建模工具，如下所述。

决策树算法有多重要？

决策树算法的重要优点是强制分析决策的所有可能结果并跟踪每条路径以得出结论。它生成对每个分支影响的详细研究，并指出需要更多调查的决策节点。此外，决策树算法为每个难度、决策路径和结果分配了一个唯一值。这种方法突出了重要的决策路线，降低了不确定性，消除了歧义，并阐明了替代行动方案的财务影响。当事实信息不可用时，用户可以使用决策树算法将选项相互透视，通过使用情况概率进行简单比较。

决策树算法基于哪种技术？

决策树算法基于决策树技术，可用于分类和回归问题。该名称意味着使用类似流程图的树结构来显示由一系列基于特征的拆分产生的预测。它以根节点开始，以叶决策结束。一棵决策树由三种节点组成，即通常表示决策节点的正方形、通常用圆圈表示的机会节点和表示末端节点的三角形。