什么是数据挖掘中的规范化以及如何做到这一点？

已发表: 2020-11-23

公司越来越依赖数据来更多地了解他们的客户。因此，数据分析师有更大的责任去探索和分析大量的原始数据，并从中收集有意义的客户趋势和模式。这被称为数据挖掘。数据分析师使用数据挖掘技术、高级统计分析和数据可视化技术来获得新的见解。

这些可以帮助企业制定有效的营销策略，以提高业务绩效、扩大销售规模并降低间接成本。尽管有数据挖掘的工具和算法，但这并不是小菜一碟，因为现实世界的数据是异构的。因此，在数据挖掘方面存在相当多的挑战。如果您想获得数据挖掘方面的专业知识，请学习数据科学。

常见的挑战之一是，数据库通常包含不同单位、范围和尺度的属性。将算法应用于如此广泛的数据可能无法提供准确的结果。这就要求数据挖掘中的数据规范化。

这是对异构数据进行规范化的必要过程。数据可以放在更小的范围内，例如 0.0 到 1.0 或 -1.0 到 1.0。简单来说，数据规范化使数据更容易分类和理解。

为什么需要数据挖掘中的规范化？

数据归一化主要用于最小化或排除重复数据。数据的重复性是一个关键问题。这是因为将数据存储在关系数据库中越来越成问题，将相同的数据保存在多个位置。 数据挖掘中的规范化是一个有益的过程，因为它可以实现如下所述的某些优点：

在一组标准化数据上应用数据挖掘算法要容易得多。
数据挖掘算法应用于一组标准化数据的结果更加准确和有效。
一旦数据被规范化，从数据库中提取数据就会变得更快。
更具体的数据分析方法可以应用于标准化数据。

阅读：数据挖掘技术

数据挖掘中数据规范化的 3 种流行技术

在数据挖掘中进行规范化有三种流行的方法。 它们包括：

最小最大归一化

更容易理解的是 200 和 1000000 之间的差异或 0.2 和 1 之间的差异。确实，当最小值和最大值之间的差异较小时，数据变得更具可读性。最小-最大归一化通过将数据范围转换为范围从 0 到 1 的尺度来发挥作用。

最小-最大归一化公式

为了理解这个公式，这里有一个例子。假设一家公司想根据员工的工作年限来决定升职。因此，它需要分析一个如下所示的数据库：

员工姓名	多年经验
美国广播公司	8
XYZ	20
二维码	10
移动网络运营商	15

最小值为 8
最大值为 20

由于此公式在 0 和 1 之间缩放数据，

新的最小值为 0
新的最大值为 1

这里，V代表属性的相应值，即8、10、15、20

应用 min-max 归一化公式后，以下是属性的V'值：

对于 8 年的经验： v'= 0
对于 10 年的经验： v' = 0.16
对于 15 年的经验： v' = 0.58
对于 20 年的经验： v' = 1

因此，最小-最大归一化可以将大数字减少到小得多的值。这使得读取测距数字之间的差异变得非常容易。

十进制标度归一化

十进制缩放是数据挖掘中的另一种规范化技术。 它通过将数字转换为小数点来发挥作用。

十进制缩放公式

这里：

V' 是应用小数缩放后的新值
V是属性的各自值

现在，整数 J 定义了小数点的移动。那么，如何定义呢？它等于数据表中最大值中存在的位数。这是一个例子：

假设一家公司想要比较新员工的薪水。以下是数据值：

员工姓名	薪水
美国广播公司	10,000
XYZ	25,000
二维码	8,000
移动网络运营商	15,000

现在，寻找数据中的最大值。在这种情况下，它是 25,000。现在计算这个值的位数。在这种情况下，它是“5”。所以这里的'j'等于5，即100,000。这意味着这里的 V（属性值）需要除以 100,000。

应用零十进制缩放公式后，以下是新值：

姓名	薪水	十进制缩放后的薪水
美国广播公司	10,000	0.1
XYZ	25, 000	0.25
二维码	8, 000	0.08
移动网络运营商	15,000	0.15

因此，十进制缩放可以将大数字淡化为易于理解的较小十进制值。此外，归属于不同单位的数据一旦转换为较小的十进制值，就会变得易于阅读和理解。

必读：数据挖掘项目的想法和主题

Z 分数归一化

Z-Score 值是为了了解数据点与平均值的距离。从技术上讲，它测量低于或高于平均值的标准偏差。它的范围从 -3 标准偏差到 +3 标准偏差。数据挖掘中的Z-score归一化对于需要比较一个值与平均值（例如来自测试或调查的结果）的那些类型的数据分析很有用。

例如，一个人的体重是 150 磅。现在，如果需要将该值与大量数据表中列出的人群的平均体重进行比较，则需要对这些值进行 Z-score 标准化来研究这些值，尤其是当某人的体重以千克为单位时。

结论

由于数据来自不同的来源，因此在任何一批数据中具有不同的属性是很常见的。因此，数据挖掘中的规范化就像预处理和准备数据以供分析。

如果您想了解数据科学，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划是为在职专业人士创建的，提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一，400 多个小时的学习和顶级公司的工作协助。

数据挖掘中的规范化是什么意思？

规范化是对属性数据进行缩放以使其落在更窄范围内的过程，例如 -1.0 到 1.0 或 0.0 到 1.0。一般来说，它对分类算法是有益的。在处理各种尺度的特征时，通常需要归一化；否则，由于其他属性具有更大范围的值，它可能会在较小范围内稀释同等重要属性的功效。换句话说，当存在许多特征但它们的值在不同的尺度上时，这可能会导致在进行数据挖掘活动时数据模型不足。结果，它们被归一化以将所有特征放在同一尺度上。

归一化有哪些不同类型？

规范化是您创建的每个数据库都应遵循的过程。范式是指采用数据库架构并向其应用一组正式标准和规则的行为。归一化过程分类如下：第一范式（1 NF），第二范式（2 NF），第三范式（3 NF），博伊斯科德范式或第四范式（BCNF或4 NF），第五范式(5 NF) 和第六范式 (6 NF) (6 NF)。

什么是最小-最大归一化？

标准化数据最流行的方法之一是最小-最大标准化。对于每个特征，最小值转换为 0，最大值转换为 1，所有其他值转换为 0 到 1 之间的小数。例如，如果特征的最小值为 20，则最高值为 40，30 将转换为大约 0.5，因为它介于 20 和 40 之间。最小-最大归一化的一个重要缺点是它不能很好地处理异常值。例如，如果您有 0 到 40 范围内的 99 个值，其中一个是 100，则所有 99 个值都将转换为 0 到 0.4 范围内的值。