數據預處理步驟：您需要知道什麼？

已發表: 2020-12-22

數據挖掘需要將原始數據轉換為有用的信息，這些信息可以進一步分析和得出關鍵見解。您從源獲得的原始數據通常處於完全無法使用的混亂狀態。需要對這些數據進行預處理以進行分析，下面列出了相同的步驟。

數據清洗

數據清洗是數據挖掘中數據預處理的第一步。 直接從某個來源獲得的數據通常可能包含某些不相關的行、不完整的信息，甚至是惡意的空單元格。

這些元素會給任何數據分析師帶來很多問題。例如，分析師的平台可能無法識別元素並返回錯誤。當您遇到缺失數據時，您可以忽略數據行或嘗試根據趨勢或您自己的評估填充缺失值。前者是一般的做法。

但是當您面對“嘈雜”的數據時，可能會出現更大的問題。為了處理雜亂無章以至於數據分析平台或任何編碼平台無法理解的嘈雜數據，使用了許多技術。

如果您的數據可以排序，則減少其噪音的一種流行方法是“分箱”方法。在這種情況下，數據被分成大小相等的 bin。在此之後，可以將每個 bin 替換為其平均值或邊界值以進行進一步分析。

另一種方法是使用回歸“平滑”數據。回歸可能是線性的或多重的，但其動機是使數據足夠平滑以使趨勢可見。第三種方法，另一種流行的方法，被稱為“聚類”。

在數據挖掘中的這種數據預處理方法中，將周圍的數據點聚集成一組數據，然後將其用於進一步分析。

閱讀：機器學習中的數據預處理

數據轉換

數據挖掘過程通常要求數據採用非常特殊的格式或語法。至少，數據必須是可以在數據分析平台上進行分析和理解的形式。為此，利用了數據挖掘的轉換步驟。有幾種方法可以轉換數據。

一種流行的方法是標準化。在這種方法中，從該字段中數據的最高值中減去每個數據點，然後除以該字段中的數據范圍。這將數據從任意數字減少到 -1 和 1 之間的範圍。

也可以進行屬性選擇，其中數據分析人員將當前形式的數據轉換為一組更簡單的屬性。數據離散化是一種較少使用且與上下文相關的技術，其中區間級別替換字段的原始值，以使對數據的理解更容易。

在“概念層次生成”中，特定屬性的每個數據點都被轉換為更高的層次級別。閱讀有關數據挖掘中的數據轉換的更多信息。

數據縮減

我們生活在一個每天都會產生數万億字節和多行數據的世界。生成的數據量與日俱增，相比之下，處理數據的基礎設施並沒有以同樣的速度改善。因此，對於系統和服務器來說，處理大量數據通常非常困難，甚至是不可能的。

由於這些問題，數據分析師經常使用數據約簡作為數據挖掘中數據預處理的一部分。 這通過以下技術減少了數據量，並使其更易於分析。

在數據立方體聚合中，通過大量數據生成一個稱為“數據立方體”的元素，然後根據需要使用立方體的每一層。多維數據集可以存儲在一個系統或服務器中，然後供其他人使用。

在“屬性子集選擇”中，僅選擇對分析具有直接重要性的屬性並將其存儲在單獨的較小數據集中。

數量減少與上述回歸步驟非常相似。通過回歸或一些其他數學方法生成趨勢來減少數據點的數量。

在“降維”中，編碼用於在檢索所有數據時減少正在處理的數據量。

考慮到數據只會變得更加重要，因此優化數據挖掘至關重要。 數據挖掘中數據預處理的這些步驟必然對任何數據分析師都有用。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑，該文憑專為在職專業人士而設，提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1-與行業導師面對面交流，400 多個小時的學習和頂級公司的工作協助。

獲得世界頂尖大學的數據科學認證。學習行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

什麼是數據預處理？

當到處都有大量數據可用時，對分析數據的不當檢查可能會導致誤導性結論。因此，在進行任何分析之前，數據的表示和質量必須放在首位。數據預處理是在用於某些目的之前更改或刪除數據的過程。這個過程保證或提高性能，是數據挖掘過程中的關鍵階段。數據預處理通常是機器學習項目中最關鍵的方面，尤其是在計算生物學中。

為什麼需要數據預處理？

數據預處理是必要的，因為在大多數情況下，現實世界的數據是不完整的，即某些特徵或值，或兩者兼而有之，不存在，或者只能訪問聚合信息，由於錯誤或異常值而有噪聲，並且由於以下原因而存在一些不一致代碼，名稱等的變化。因此，如果數據缺少屬性或屬性值，有噪聲或異常值，並且包含重複或不正確的數據，則認為它是不干淨的。任何這些都會降低結果的質量。因此，數據預處理是必需的，因為它可以消除數據中的不一致性、噪聲和不完整性，從而使其能夠被正確分析和使用。

數據預處理在數據挖掘中的重要性是什麼？

我們可以在數據挖掘中找到數據預處理的根源。數據預處理旨在添加缺失值、整合信息、分類數據和平滑軌跡。通過數據預處理，可以從數據集中刪除不需要的信息。這個過程讓用戶擁有一個包含更多關鍵數據的數據集，以便在挖掘階段後期進行操作。使用數據預處理和數據挖掘有助於用戶編輯數據集以糾正數據損壞或人為錯誤，這對於獲得包含在混淆矩陣中的準確量詞至關重要。為了提高準確性，用戶可以合併數據文件並利用預處理從數據中去除任何不需要的噪音。更複雜的方法，例如主成分分析和特徵選擇，使用數據預處理的統計公式來分析 GPS 跟踪器和運動捕捉設備捕獲的大型數據集。