标签编码器与机器学习中的一种热编码器 [2022]

已发表: 2021-01-04

部署在众多应用程序中的机器学习模型通常需要从分类数据或文本焦点到数字描述的一系列转换。为了满足转换需要，使用了两种类型的编码器，即标签编码器和一种热编码器。

棘手的部分是何时选择标签编码器以及何时选择一种热编码器。 决策的选择会影响模型，也构成了数据科学家和机器学习爱好者通常提出的许多问题的基础。

编码的选择会生动地影响模型的准确商，因此可以导致优化的解决方案。要了解它对模型的影响，我们需要了解标签编码器和一个热编码器。

通过人工智能和机器学习中的知识图谱，我们大多数人会认识到的一个方面是，大多数算法都可以合理地处理数字输入。因此，分析师面临的核心挑战是将文本数据转换为数字数据，并让模型从中得出一个观点。

标签编码器

标签编码引用了将标签变形为数字形式，将其变为机器可以读取的形式。机器学习算法随后可以以正确的方式确定必须如何管理这些标签。它是监督学习中集成数据集的关键预处理措施。

例如，我们有一个数据集，它以兄弟姐妹之间最高级比较的形式比较了某种技能的某种质量。数据集很好，更好，最好。应用标签编码器后，每个质量将分别被赋予标签 0、1、2。好质量的标签是 0，更好的标签是 1，最好的质量标签是 2。

就数据集而言，上述示例是基本的。转换可以是任何数据集，包括身高、年龄、眼睛颜色、虹膜类型、症状等。

Python 中的标签编码可以使用 Sklearn 库来实现。 Sklearn 提供了一种将分类特征的类别编码为数值的非常有效的方法。标签编码器对信用度介于 0 和 n-1 类之间的标签进行编码，其中 n 是不同标签的数量。如果一个标签重申它指定的确切优点与之前指定的一样。

而为了将这类分类文本数据改造为模型数值数据可以理解的数据，我们使用了Label Encoder类。我们需要对初始列进行标签编码，从 sklearn 库中导入 LabelEncoder 类，装备和改造数据的初始部分，然后使用新的编码数据恢复出现的文本数据。

这是标签编码的简要说明。依赖于数据，标签编码引发了一个新的困境。为了说明，我们将一堆王国名称编码为数字数据。这完全是分类数据，行之间没有任何关联。

为了解决这个障碍，需要采用一种新的编码技术。这里的困境是由于在相似的部分中有多个数量，原型会误判数据的顺序相同，0 < 1 < 2。但这根本不是问题。为了缓解这个困难，我们使用了一个热编码器。

必读：机器学习项目理念

一个热编码器

One-Hot Encoding 是另一种处理分类变量的重要协议。它仅建立在分类特征中不同值的数量上建立的以下特征。分类中的整个不同值将被放大为轮廓。一种热编码采用具有分类数据的部分，该部分具有编码的现有标签，然后将该部分划分为多个部分。卷由 1 和 0 重建，取决于哪个部分具有什么值。

one-hot 编码器不支持一维数组。输入应始终是二维数组。

批准给编码器的数据不应包含字符串。

大量流行的机器学习算法不能致力于分类数据。相反，分类数据需要修改为数值数据。 One-hot 编码是用于进行这种转换的策略之一。这种技术主要用于深度学习方法与顺序继承问题相关的地方。

One-hot 编码实际上是分类变量作为二进制向量的表现。分类值最初映射为整数值。每个整数值都被示例为一个全为 0 的二进制向量。

但是如果我们要处理多个文件会发生什么？

Scikit-learn 容易受到部分的排列方式的影响，因此如果训练数据集和测试数据集在其中出现矛盾，结果将是荒谬的。如果一个分类在训练数据和测试数据中有多个值，这可能会发生。

确保使用 align 命令以与训练数据相同的方式对测试数据进行编码。 align 命令提供了安全性，即这些部分出现在两个数据集中的确切法令中。

阅读：机器学习模型

结论

全球充斥着分类数据。如果您知道如何使用这些数据，分析师将成为更有益的数据科学家。因此，任何想要研究此类模型的人都必须熟悉标签编码器和机器学习中的一个热门编码器的使用。

如果您有兴趣了解有关机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为工作专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

哪些算法需要使用一种热编码？

一种热编码过程用于处理分类变量。此过程转换分类变量，使机器学习算法更容易使用变量进行更好的预测。仅将数值作为输入的算法只需要一个热编码过程来转换分类变量。其中一些机器学习算法是逻辑回归、线性回归、支持向量机等。然而，一些算法，如马尔可夫链、朴素贝叶斯等，不需要编码，因为它们能够处理联合离散分布。

什么时候更倾向于在深度学习中使用一种热编码？

One Hot Encoding 是一种强大的数据转换和预处理方法，可帮助 ML 模型理解提供的数据。基本上，当 ML 算法无法处理分类变量时，使用一种热编码，因此，一种热编码将它们转换为合适的形式。当要转换的分类变量的特征不是序数时，最优选使用一种热编码。此外，当给定数据集中存在的分类特征数量非常少时，一种热编码可以有效地工作。

虚拟变量陷阱是什么意思？

虚拟变量陷阱是 one-hot 编码过程面临的问题之一。当分类数据集具有强关联变量时，就会发生这种情况。因此，当使用一个热编码过程时，使用剩余变量可以很容易地预测一个变量的结果。作为虚拟变量陷阱的结果，出现了另一个称为多重共线性的问题。