机器学习中决策树回归的优缺点

已发表: 2020-12-24

最流行的机器学习算法之一，决策树回归，被竞争对手和数据科学专业人士使用。 这些是基于一组二进制规则计算目标值的预测模型。

它用于以树结构的形式构建回归和分类模型。数据集在决策树中被分解为更小的子集，而相关的决策树是同时增量构建的。

决策树用于根据对数据集执行一系列问题得出估计值。通过询问这些真/假问题，模型能够缩小可能的值并做出预测。问题的顺序和内容由模型本身决定。

什么是决策树术语？

决策树有分支、节点、叶子等。根节点是代表整个样本或总体的初始节点，它可以进一步划分为其他节点或同质集。决策节点由两个或多个节点组成，这些节点代表测试属性的单独值。

叶/终端节点不会分裂成更多的节点，它代表一个决定。分支或子树是整个树的子部分。分裂是将一个节点划分为两个或多个子节点的过程。分裂的反面称为剪枝，即去除决策节点的子节点。父节点是划分为子节点的节点，子节点是子节点。

相关：决策树算法指南

它是如何工作的？

决策树算法使用一个数据点并通过询问真/假问题来遍历整个树。从根节点开始，提出问题，并为每个答案创建单独的分支，并一直持续到到达叶节点。递归分区用于构造树。

决策树是一种有监督的机器学习模型，因此它在模型构建的训练阶段学习将数据映射到输出。这是通过将模型与需要与问题相关的历史数据以及模型应该学会准确预测的真实值拟合来完成的。这有助于模型学习数据和目标变量之间的关系。

在这个阶段之后，决策树能够通过计算问题及其顺序来构建类似的树，这将有助于它做出最准确的估计。因此，预测取决于输入模型的训练数据。

拆分是如何决定的？

分类树和回归树的分裂决策不同，树预测的准确性高度依赖于它。均方误差（MSE）通常用于在决策树回归中决定是否将一个节点拆分为两个或多个子节点。 在二叉树的情况下，算法选择一个值并将数据分成两个子集，计算每个子集的 MSE，并选择最小的 MSE 值作为结果。

实施决策树回归

以下步骤提供了实现决策树回归算法的基本结构。

导入库

开发任何机器学习模型的第一步是导入开发所需的所有库。

加载数据

导入库后，下一步是加载数据集。可以从用户的本地文件夹下载或使用数据。

拆分数据集

加载数据后，需要将其拆分为训练集和测试集，并创建 x 和 y 变量。还需要重新调整这些值以使数据成为所需的格式。

训练模型

这里使用上一步创建的训练集训练数据树回归模型。

预测结果

这里使用在训练集上训练的模型来预测测试集的结果。

模型评估

通过在最后一步中比较真实值和预测值来检查模型的性能。通过比较这些值可以推断模型的准确性。通过创建值图来可视化结果也有助于衡量模型的准确性。

阅读：如何创建完美的决策树？

优点

决策树模型可用于分类和回归问题，并且易于解释、理解和可视化。
决策树的输出也很容易理解。
与其他算法相比，决策树预处理过程中的数据准备工作量较小，并且不需要对数据进行规范化。
也可以在不缩放数据的情况下完成实施。
决策树是识别变量和最重要变量之间关系的最快方法之一。
还可以创建新特征以更好地预测目标变量。
决策树在很大程度上不受异常值或缺失值的影响，它可以处理数值变量和分类变量。
由于它是一种非参数方法，它没有关于空间分布和分类器结构的假设。

缺点

过拟合是决策树模型的实际困难之一。当学习算法继续开发减少训练集错误但以增加测试集错误为代价的假设时，就会发生这种情况。但是这个问题可以通过对模型参数进行修剪和设置约束来解决。
决策树不能很好地与连续数值变量一起使用。
数据的微小变化往往会导致树结构的巨大差异，从而导致不稳定。
与其他算法相比，所涉及的计算也可能变得复杂，并且需要更长的时间来训练模型。
它也相对昂贵，因为花费的时间量和复杂程度更高。

结论

本文通过描述树的构造方式以及有关它的各种术语的简要定义来解释决策树回归算法。 还包括对决策树如何工作以及如何做出拆分任何节点的决策的简要描述。

还通过一系列步骤解释了如何实现基本的决策树回归。最后，给出了决策树算法的优缺点。

如果您有兴趣了解有关决策树、机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为在职专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业，IIIT-B 校友身份，5 个以上实用的实践顶点项目和顶级公司的工作协助。

什么是机器学习中的回归？

回归用于预测连续变量。这是我们必须预测一个数字的时候。例如，如果您想根据房屋大小和城市面积等特征来预测城市中的房屋价格，则将使用回归。使用线性回归很容易解决回归问题。简而言之，回归是根据输入值估计未知输出值的行为。

什么是决策树？

决策树是一个图表，显示了所有可能的决策和可能的结果。决策树通常用于检查决策如何影响未来的结果。例如，决策树可以帮助公司分析是否应该购买额外的仓库或建立新的配送中心。通常，决策树用于运筹学和管理科学。决策树是决策制定和项目规划中常见且流行的概念。当一些可能的路线是相互排斥的，并且当每个行动路线的结果取决于世界的状态时，它们可以用于在行动路线之间进行选择。

决策树的优缺点是什么？

决策树模型可用于任何类别的问题，无论是分类还是数值预测。它可以扩展到任何类别的问题。它可以用于有监督和无监督分类。它可以处理数字和分类特征的混合。它给出了稳定的结果。但是，很难理解预测背后的原因。应该理解，该模型不是在学习树的每个节点中的最佳分割，而是在学习每个节点内类的概率分布。这一要求使模型计算密集，并阻止它处理大量数据。