什麼是數據挖掘中的規範化以及如何做到這一點？

已發表: 2020-11-23

公司越來越依賴數據來更多地了解他們的客戶。因此，數據分析師有更大的責任去探索和分析大量的原始數據，並從中收集有意義的客戶趨勢和模式。這被稱為數據挖掘。數據分析師使用數據挖掘技術、高級統計分析和數據可視化技術來獲得新的見解。

這些可以幫助企業製定有效的營銷策略，以提高業務績效、擴大銷售規模並降低間接成本。儘管有數據挖掘的工具和算法，但這並不是小菜一碟，因為現實世界的數據是異構的。因此，在數據挖掘方面存在相當多的挑戰。如果您想獲得數據挖掘方面的專業知識，請學習數據科學。

常見的挑戰之一是，數據庫通常包含不同單位、範圍和尺度的屬性。將算法應用於如此廣泛的數據可能無法提供準確的結果。這就要求數據挖掘中的數據規範化。

這是對異構數據進行規範化的必要過程。數據可以放在更小的範圍內，例如 0.0 到 1.0 或 -1.0 到 1.0。簡單來說，數據規範化使數據更容易分類和理解。

為什麼需要數據挖掘中的規範化？

數據歸一化主要用於最小化或排除重複數據。數據的重複性是一個關鍵問題。這是因為將數據存儲在關係數據庫中越來越成問題，將相同的數據保存在多個位置。 數據挖掘中的規範化是一個有益的過程，因為它可以實現如下所述的某些優點：

在一組標準化數據上應用數據挖掘算法要容易得多。
數據挖掘算法應用於一組標準化數據的結果更加準確和有效。
一旦數據被規範化，從數據庫中提取數據就會變得更快。
更具體的數據分析方法可以應用於標準化數據。

閱讀：數據挖掘技術

數據挖掘中數據規範化的 3 種流行技術

在數據挖掘中進行規範化有三種流行的方法。 它們包括：

最小最大歸一化

更容易理解的是 200 和 1000000 之間的差異或 0.2 和 1 之間的差異。確實，當最小值和最大值之間的差異較小時，數據變得更具可讀性。最小-最大歸一化通過將數據范圍轉換為範圍從 0 到 1 的尺度來發揮作用。

最小-最大歸一化公式

為了理解這個公式，這裡有一個例子。假設一家公司想根據員工的工作年限來決定升職。因此，它需要分析一個如下所示的數據庫：

員工姓名	多年經驗
美國廣播公司	8
XYZ	20
二維碼	10
移動網絡運營商	15

最小值為 8
最大值為 20

由於此公式在 0 和 1 之間縮放數據，

新的最小值為 0
新的最大值為 1

這裡，V代表屬性的相應值，即8、10、15、20

應用 min-max 歸一化公式後，以下是屬性的V'值：

對於 8 年的經驗： v'= 0
對於 10 年的經驗： v' = 0.16
對於 15 年的經驗： v' = 0.58
對於 20 年的經驗： v' = 1

因此，最小-最大歸一化可以將大數字減少到小得多的值。這使得讀取測距數字之間的差異變得非常容易。

十進制標度歸一化

十進制縮放是數據挖掘中的另一種規範化技術。 它通過將數字轉換為小數點來發揮作用。

十進制縮放公式

這裡：

V' 是應用小數縮放後的新值
V是屬性的各自值

現在，整數 J 定義了小數點的移動。那麼，如何定義呢？它等於數據表中最大值中存在的位數。這是一個例子：

假設一家公司想要比較新員工的薪水。以下是數據值：

員工姓名	薪水
美國廣播公司	10,000
XYZ	25,000
二維碼	8,000
移動網絡運營商	15,000

現在，尋找數據中的最大值。在這種情況下，它是 25,000。現在計算這個值的位數。在這種情況下，它是“5”。所以這裡的'j'等於5，即100,000。這意味著這裡的 V（屬性值）需要除以 100,000。

應用零十進制縮放公式後，以下是新值：

姓名	薪水	十進制縮放後的薪水
美國廣播公司	10,000	0.1
XYZ	25, 000	0.25
二維碼	8, 000	0.08
移動網絡運營商	15,000	0.15

因此，十進制縮放可以將大數字淡化為易於理解的較小十進制值。此外，歸屬於不同單位的數據一旦轉換為較小的十進制值，就會變得易於閱讀和理解。

必讀：數據挖掘項目的想法和主題

Z 分數歸一化

Z-Score 值是為了了解數據點與平均值的距離。從技術上講，它測量低於或高於平均值的標準偏差。它的範圍從 -3 標準偏差到 +3 標準偏差。數據挖掘中的Z-score歸一化對於需要比較一個值與平均值（例如來自測試或調查的結果）的那些類型的數據分析很有用。

例如，一個人的體重是 150 磅。現在，如果需要將該值與大量數據表中列出的人群的平均體重進行比較，則需要對這些值進行 Z-score 標準化來研究這些值，尤其是當某人的體重以千克為單位時。

結論

由於數據來自不同的來源，因此在任何一批數據中具有不同的屬性是很常見的。因此，數據挖掘中的規範化就像預處理和準備數據以供分析。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃是為在職專業人士創建的，提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一，400 多個小時的學習和頂級公司的工作協助。

數據挖掘中的規範化是什麼意思？

規範化是對屬性數據進行縮放以使其落在更窄範圍內的過程，例如 -1.0 到 1.0 或 0.0 到 1.0。一般來說，它對分類算法是有益的。在處理各種尺度的特徵時，通常需要歸一化；否則，由於其他屬性具有更大範圍的值，它可能會在較小範圍內稀釋同等重要屬性的功效。換句話說，當存在許多特徵但它們的值在不同的尺度上時，這可能會導致在進行數據挖掘活動時數據模型不足。結果，它們被歸一化以將所有特徵放在同一尺度上。

歸一化有哪些不同類型？

規範化是您創建的每個數據庫都應遵循的過程。範式是指採用數據庫架構並向其應用一組正式標準和規則的行為。歸一化過程分類如下：第一範式（1 NF），第二範式（2 NF），第三範式（3 NF），博伊斯科德範式或第四範式（BCNF或4 NF），第五範式(5 NF) 和第六範式 (6 NF) (6 NF)。

什麼是最小-最大歸一化？

標準化數據最流行的方法之一是最小-最大標準化。對於每個特徵，最小值轉換為 0，最大值轉換為 1，所有其他值轉換為 0 到 1 之間的小數。例如，如果特徵的最小值為 20，則最高值為 40，30 將轉換為大約 0.5，因為它介於 20 和 40 之間。最小-最大歸一化的一個重要缺點是它不能很好地處理異常值。例如，如果您有 0 到 40 範圍內的 99 個值，其中一個是 100，則所有 99 個值都將轉換為 0 到 0.4 範圍內的值。