决策树分类：您需要知道的一切

已发表: 2020-05-29

介绍

许多类比可以从自然引入我们的现实生活。树恰好是其中最有影响力的一种。树已经对机器学习的一个相当大的领域产生了影响。它们涵盖了基本的分类和回归。在分析任何决策时，可以使用决策树分类器来表示决策过程。

因此，基本上，决策树恰好是监督机器学习的一部分，其中数据处理是通过连续拆分数据来进行的，同时始终牢记特定参数。

决策树是由什么组成的？

这个问题的答案很简单。决策树由三个基本要素组成，每个要素都可以类比为现实生活中的树。下面列出了所有三个：

节点：这是对值进行测试的地方。在节点中，特定属性的值被传递，并根据这些值进行检查和测试以做出决定。
边缘/分支：这部分对应于任何测试结果的结果。边缘/分支还负责链接两个不同的节点或叶子。
叶节点：这些是通常在终端上找到的节点。叶节点负责预测结果。

决策树分类

决策树可以大致分为两类，即分类树和回归树。

1.分类树

分类树是基于回答“是”或“否”问题并使用此信息做出决策的决策树类型。因此，通过询问一堆相关问题并使用答案得出可行解决方案来确定一个人是否适合或不适合的树是一种分类树。

这些类型的树通常是通过采用称为二元递归分区的过程来构建的。二元递归分区的方法是将数据拆分为单独的模块或分区，然后将这些分区进一步拼接到决策树分类器的每个分支中。

2.回归树

现在，回归类型的决策树与决策树的分类类型在一个方面有所不同。输入两棵树的数据非常不同。分类树处理离散的数据，而回归决策树处理连续数据类型。回归树的一个很好的例子是房价或患者通常会在医院停留多长时间。

了解更多：机器学习中的线性回归

决策树是如何创建的？

决策树是通过获取模型必须训练的数据集来创建的（决策树是监督机器学习的一部分）。该训练数据集将被不断拼接成更小的数据子集。该过程通过创建关联树来补充，该关联树在分解数据的过程中逐渐并排创建。机器学习完成后，根据提供的训练数据集创建决策树结束，然后将决策树返回给用户。

使用决策树的核心思想是将数据分成两个主要区域，即人口密集（集群）的区域或空（或稀疏）区域的区域。

决策树分类的工作原理是划分的基本原则。它征服了在经过一系列测试后，任何已输入树的新示例将被组织并赋予类别标签。下面详细讨论分治算法：

分而治之

很明显，决策树分类器是通过使用称为递归分区的启发式算法（也称为分治算法）构建的。它将数据分解成更小的集合并继续这样做。直到它确定每个子集中的数据是同质的，或者如果用户定义了另一个停止标准，这将停止该算法。

决策树分类器是如何工作的？

分治算法用于创建决策树分类器。通过使用该算法，我们总是从树的根开始，我们还拆分数据集以减少最终决策的不确定性。
它恰好是一个迭代过程。所以，我们在每个节点重复这个过程。重复这个过程，直到我们没有我们想要的纯度节点。
通常，为了避免过度拟合，我们设置了要达到的纯度限制。这意味着最终结果可能不是 100% 纯的。

分治算法的基础知识：

首先是为根节点选择或选择测试。然后开始创建分支的过程。设计分支时要牢记已定义的试验的每个可能结果。
接下来是将数据实例拆分为更小的子集。每个分支都有自己的接头，连接到节点。
然后必须通过仅使用到达相关分支的实例来为每个分支重复此过程。
如果所有实例都属于同一个类，则应停止此递归过程。

使用决策树分类的优点

它不需要大量的资金来建造。
这是对新的或未知的记录进行分类的快速过程。
它可以很容易地解释，特别是如果树的大小很小。
使用决策树分类器进行预测的准确性与其他预测或分类方法相当。
它还具有排除不重要的功能的能力。这个消除不相关特征的过程是自动完成的。

阅读：如何创建完美的决策树？

使用决策树分类器的缺点

在这种情况下，过拟合数据集非常容易。
决策的边界是有限制的。它只能与包含属性的轴平行。
基于决策树的模型通常具有大量级别的偏向拆分。
对数据集所做的任何微小更改都会对控制决策的逻辑产生重大影响。
较大的树很难理解，因为有时它们可能会感觉非常违反直觉。

另请阅读：机器学习中的决策树

学习世界顶尖大学的数据科学课程。 获得行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

结论

当我们面临线性解决方案无法处理的问题时，决策树会派上用场。从观察中可以看出，基于树的模型可以轻松映射输入的非线性并有效地消除手头的问题。随机森林生成和梯度提升等复杂方法都是基于决策树分类器本身。

决策树是一种强大的工具，可用于现实生活的许多领域，如生物医学工程、天文学、系统控制、医学、物理学等。这有效地使决策树分类成为机器学习的关键和不可或缺的工具。

决策树是否倾向于过度拟合？

决策树将复杂的数据分割成更简单的形式。决策树分类尝试划分数据，直到无法进一步划分。然后创建所有可能内容的清晰图表，这有助于进一步分析。虽然具有大量拼接的巨大树为我们提供了一条笔直的路径，但它在测试数据时也会产生问题。这种过度拼接会导致过度拟合，其中许多分割导致树极大地增长。在这种情况下，决策树的预测能力会受到影响，因此变得不健全。修剪是一种用于处理过度拟合的技术，其中过多的子集被删除。

决策树需要规范化吗？

决策树是用于数据分类和回归的最常见的机器学习算法。这种监督机制将每个子集的数据拼接成不同的组，直到它到达叶节点，在那里它不能被进一步划分。由于此数据将根据提供的属性进行分类，因此将平均分割。它传达了经过规范化的数据和未经过规范化的数据都将具有相同数量的拆分。因此，归一化不是基于决策的树模型的先决条件。

如何拼接决策树？

决策树是对数据进行分类和预测解决方案的可靠机制。决策树中的拼接需要精度；一个小错误可能会损害决策树的完整性。决策树中的拼接使用递归分区进行。拆分数据从通过分配给它的属性生成数据子集开始。数据在重复中递归地拆分，直到每个节点处的拼接数据在预测解决方案中被认为是过时的。子集也可以类似于目标变量的值。为了获得良好的准确性，拼接必须有条不紊和重复。