数据预处理步骤：您需要知道什么？

已发表: 2020-12-22

数据挖掘需要将原始数据转换为有用的信息，这些信息可以进一步分析和得出关键见解。您从源获得的原始数据通常处于完全无法使用的混乱状态。需要对这些数据进行预处理以进行分析，下面列出了相同的步骤。

数据清洗

数据清洗是数据挖掘中数据预处理的第一步。 直接从某个来源获得的数据通常可能包含某些不相关的行、不完整的信息，甚至是恶意的空单元格。

这些元素会给任何数据分析师带来很多问题。例如，分析师的平台可能无法识别元素并返回错误。当您遇到缺失数据时，您可以忽略数据行或尝试根据趋势或您自己的评估填充缺失值。前者是一般的做法。

但是当您面对“嘈杂”的数据时，可能会出现更大的问题。为了处理杂乱无章以至于数据分析平台或任何编码平台无法理解的嘈杂数据，使用了许多技术。

如果您的数据可以排序，则减少其噪音的一种流行方法是“分箱”方法。在这种情况下，数据被分成大小相等的 bin。在此之后，可以将每个 bin 替换为其平均值或边界值以进行进一步分析。

另一种方法是使用回归“平滑”数据。回归可能是线性的或多重的，但其动机是使数据足够平滑以使趋势可见。第三种方法，另一种流行的方法，被称为“聚类”。

在数据挖掘中的这种数据预处理方法中，将周围的数据点聚集成一组数据，然后将其用于进一步分析。

阅读：机器学习中的数据预处理

数据转换

数据挖掘过程通常要求数据采用非常特殊的格式或语法。至少，数据必须是可以在数据分析平台上进行分析和理解的形式。为此，利用了数据挖掘的转换步骤。有几种方法可以转换数据。

一种流行的方法是标准化。在这种方法中，从该字段中数据的最高值中减去每个数据点，然后除以该字段中的数据范围。这将数据从任意数字减少到 -1 和 1 之间的范围。

也可以进行属性选择，其中数据分析人员将当前形式的数据转换为一组更简单的属性。数据离散化是一种较少使用且与上下文相关的技术，其中区间级别替换字段的原始值，以使对数据的理解更容易。

在“概念层次生成”中，特定属性的每个数据点都被转换为更高的层次级别。阅读有关数据挖掘中的数据转换的更多信息。

数据缩减

我们生活在一个每天都会产生数万亿字节和多行数据的世界。生成的数据量与日俱增，相比之下，处理数据的基础设施并没有以同样的速度改善。因此，对于系统和服务器来说，处理大量数据通常非常困难，甚至是不可能的。

由于这些问题，数据分析师经常使用数据约简作为数据挖掘中数据预处理的一部分。 这通过以下技术减少了数据量，并使其更易于分析。

在数据立方体聚合中，通过大量数据生成一个称为“数据立方体”的元素，然后根据需要使用立方体的每一层。多维数据集可以存储在一个系统或服务器中，然后供其他人使用。

在“属性子集选择”中，仅选择对分析具有直接重要性的属性并将其存储在单独的较小数据集中。

数量减少与上述回归步骤非常相似。通过回归或一些其他数学方法生成趋势来减少数据点的数量。

在“降维”中，编码用于在检索所有数据时减少正在处理的数据量。

考虑到数据只会变得更加重要，因此优化数据挖掘至关重要。 数据挖掘中数据预处理的这些步骤必然对任何数据分析师都有用。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学 PG 文凭，该文凭专为在职专业人士而设，提供 10 多个案例研究和项目、实用的实践研讨会、与行业专家的指导、1-与行业导师面对面交流，400 多个小时的学习和顶级公司的工作协助。

获得世界顶尖大学的数据科学认证。学习行政 PG 课程、高级证书课程或硕士课程，以加快您的职业生涯。

什么是数据预处理？

当到处都有大量数据可用时，对分析数据的不当检查可能会导致误导性结论。因此，在进行任何分析之前，数据的表示和质量必须放在首位。数据预处理是在用于某些目的之前更改或删除数据的过程。这个过程保证或提高性能，是数据挖掘过程中的关键阶段。数据预处理通常是机器学习项目中最关键的方面，尤其是在计算生物学中。

为什么需要数据预处理？

数据预处理是必要的，因为在大多数情况下，现实世界的数据是不完整的，即某些特征或值，或两者兼而有之，不存在，或者只能访问聚合信息，由于错误或异常值而有噪声，并且由于以下原因而存在一些不一致代码，名称等的变化。因此，如果数据缺少属性或属性值，有噪声或异常值，并且包含重复或不正确的数据，则认为它是不干净的。任何这些都会降低结果的质量。因此，数据预处理是必需的，因为它可以消除数据中的不一致性、噪声和不完整性，从而使其能够被正确分析和使用。

数据预处理在数据挖掘中的重要性是什么？

我们可以在数据挖掘中找到数据预处理的根源。数据预处理旨在添加缺失值、整合信息、分类数据和平滑轨迹。通过数据预处理，可以从数据集中删除不需要的信息。这个过程让用户拥有一个包含更多关键数据的数据集，以便在挖掘阶段后期进行操作。使用数据预处理和数据挖掘有助于用户编辑数据集以纠正数据损坏或人为错误，这对于获得包含在混淆矩阵中的准确量词至关重要。为了提高准确性，用户可以合并数据文件并利用预处理从数据中去除任何不需要的噪音。更复杂的方法，例如主成分分析和特征选择，使用数据预处理的统计公式来分析 GPS 跟踪器和运动捕捉设备捕获的大型数据集。