機器學習項目的最佳數據集：所有你需要知道的

已發表: 2020-03-20

介紹

機器學習是當今使用的最強大的技術之一。它是人工智能的一個非常重要的分支，用於使計算機更智能——使它們能夠在沒有人工干預的情況下學習。這使得機器學習成為處理數據的重要工具。由於數據幾乎無處不在，從制定業務決策到策劃客戶體驗，機器學習使識別隱藏在這些龐大數據集中的模式變得更加容易。

最重要的是，這些數據集是組織大量原始數據的一種方式。使用這些數據集，編寫程序來創建使業務運營更容易的應用程序。在本文中，我們了解機器學習的不同數據集。

但在進入之前，讓我們先了解機器學習的基礎知識。

什麼是機器學習？

機器學習負責為您最喜歡的平台提供支持，例如 Netflix、Facebook、Twitter、YouTube、Spotify、Google 和百度。甚至 Alexa 和 Siri 等語音助手也會選擇您喜歡的歌曲來使用機器學習！所有這些平台都試圖使用與您相關的數據。這包括您的搜索、點擊、您的視圖、您分享的圖片、評論、反應和帖子。了解有關頂級機器學習應用程序的更多信息。

機器學習利用這些數據來了解您的偏好。例如，Netflix 使用它來根據您觀看的內容推薦您可能喜歡觀看的電視劇。甚至像亞馬遜這樣的平台也使用機器學習來根據您之前的購買歷史推薦您的產品。

機器學習市場最突出的部分是深度學習，到 2025 年可能達到 10 億。

看起來很有趣？讓我們進入該主題的技術細節。

機器學習的類別

機器學習大致分為三類——監督學習、無監督學習和強化學習。

監督學習

在這個過程中，計算機將從稱為訓練數據的數據集中學習。它將在此基礎上做出決定並預測未來的結果。稍後您將了解用於機器學習的訓練數據集。在這裡，系統被輸入輸出對，在使用這些對時，它會學習它們是如何映射在一起的。這就像有一組帶有正確答案的問題。

當系統或算法學習輸入-輸出對之間的關係時，它可以在向其提供新輸入時預測輸出。詳細了解監督學習的類型。

無監督學習

在這裡，計算機在沒有任何幫助的情況下查看數據集以識別隱藏模式。它可以處理複雜的任務並自行發現結果。了解有關無監督學習的更多信息。

強化學習

這種機器學習過程利用試錯法來確定問題的解決方案。所以程序的輸出將取決於提供給它的當前輸入。

現在您對機器學習有了基本的了解，讓我們繼續討論數據集。

什麼是機器學習的數據集？

數據集，顧名思義，就是數據的集合。它可以是單個數據庫的數據，其中一個變量用於表示列。該表的行可以由該特定數據集的成員表示。

為機器學習準備數據集很重要。這是因為算法無法在原始或非結構化數據上正常工作。需要一個適當的數據集來解決問題並做出決策。例如，天氣應用程序可能沒有包含過去幾天或幾週的氣候數據的正確數據集。因此，它將無法為即將到來的一周提供準確的天氣預報。

因此，如果沒有適當的機器學習數據集，即使有訓練有素的數據科學家，機器學習項目也不會成功。

機器學習數據集用於創建機器學習模型。這些模型使用數學表達式表示現實世界的問題。要生成這樣的模型，您必須為其提供數據集以供學習和工作。

機器學習中使用的數據集類型如下：

1.訓練數據集

這可能是機器學習數據集中最重要的。它被饋送到機器學習算法以創建模型。該算法尋找數據模式來識別輸入變量。這將有助於它達到最終目標或期望的輸出。此數據集的輸出是可用於預測結果的機器學習模型。

大約 60% 的數據集被訓練數據集占用。

2.驗證數據集

在驗證階段使用驗證數據集，同時創建機器學習項目。這個階段就在訓練之後。該數據集對於評估機器學習模型很重要。機器學習工程師使用這個集合來調整和調整模型的超參數。這些超參數是在程序開始學習之前設置了值的參數。

無法從數據中估計它們的值。例如，超參數可以包括樹的深度或神經網絡中未檢測到的層數。

根據著名作家Max Kuhn 和 Kjell Johnson的說法，“必須使用未用於創建或調整數據模型的樣本來評估數據模型。這為您提供了模型有效性的公正結果。在處理大量數據時，最好留出一些數據樣本進行評估。訓練集是用於構建模型的樣本，而驗證和測試樣本用於分析其性能。”

3.測試數據集

機器學習的測試數據集用於了解機器學習模型在未來將如何工作。使用此數據集，您將能夠了解您的數據模型的準確性。簡單來說，這個數據集會告訴你你的數據模型從訓練集中學到了多少。

這些集合佔據了 20% 的數據。該集合將包含輸入變量以及經過驗證的輸出。但是，在機器學習項目中，我們一般不會在測試階段使用訓練數據集。這是因為該算法將知道預期的輸出，正如它之前從該數據集中學習的那樣。

在測試階段之後，通常不再調整數據模型。這是因為進一步調整會導致過擬合。當使用太多數據訓練數據模型時，就會發生過度擬合。在這種情況下，模型開始從給定數據集中的不准確數據條目中學習。因此，它不能在新數據集上正常工作。這就像你不能穿上超大號牛仔褲一樣！

但要讓機器學習模型成功運行，您需要為其提供良好的數據集。沒有機器學習的數據集，算法將無法學習和解決問題。例如，當您沒有合適的書籍和資源時，您就無法通過您想要的考試。

為機器學習準備數據集

讓我們找出為機器學習創建數據集所需的步驟。

數據採集

第一步是收集機器學習模型可能需要的所有相關數據。數據量將取決於機器學習項目的複雜性。一個簡單的項目比一個複雜的項目需要更少的數據。因此，您需要確定解決手頭問題實際需要的所有內容。

通過回答以下問題可以輕鬆收集數據：

您可以為項目提供哪些類型的數據？
項目所需的哪些數據不可用？ – 這可能包括某些數據庫或存儲在雲系統中的數據。您可能需要派生這些數據。
您可以從現有數據中刪除哪些數據？這意味著清除與您的項目無關的不需要的數據。

當你有了所有這些問題的答案後，你就可以開始從各種來源收集數據了。這些可以是文本文件、.csv 文件、查看 JSON 和 XML 文件和數據存儲庫中的嵌套數據結構。

現在您可以繼續下一步，為機器學習創建數據集。

數據預處理

現在您已經擁有了所需的所有數據，您必須為您的模型正確處理這些數據。預處理方法是將原始數據集轉換為可用的有意義的集合。該過程包括以下三個步驟：

格式化

您收集的許多原始數據的格式不適合您的機器學習模型。它可能在 JSON 文件或關係數據庫中。您需要根據您的方便將此數據轉換為文本文件或 .csv 文件。

打掃

這是您從數據集中修復和刪除丟失和不需要的數據的過程。這些數據實例可能無助於解決問題。此外，您可能需要完全隱藏或刪除某些屬性中的敏感信息。這使您的機器學習數據集更有意義。

採樣

您收集的數據可能比項目實際需要的多得多。大型數據集會消耗大量內存空間。當輸入機器學習算法時，它們還會導致更長的運行時間和更多的計算。為了避免這些問題，您必須對所選數據進行更小的樣本，以便您的模型可以輕鬆使用。這個過程稱為採樣。

特徵工程

在這裡，對數據集進行分析以確定有助於解決問題和進行預測的最佳特徵和模式。所以，在這個過程中，可能會從一個大數據集中刪除一些數據。重點是適合模型的最重要的功能。

數據可以分解成小部分以識別關鍵特徵。例如，可以將特定年份的銷售數據分解為月份和一周中的幾天。這種方式對銷售業績的分析更加容易和快捷。這也有助於機器學習算法更快地計算。

拆分數據

現在必須將數據分成三組——訓練、測試和驗證。您需要將其分別分成 70%、20% 和 10% 的集合。為了進行正確的測試，請確保您只選擇不重疊的數據子集。正確拆分數據集以使機器學習模型更快地達到所需的輸出。您可以稍後細化數據模型。

好吧，您現在已經學會瞭如何為機器學習算法管理數據集。但是，如果您有一個項目即將推出，但沒有時間構建自己的數據集怎麼辦？多虧了互聯網，有許多現成的數據集可供您選擇。

在線機器學習數據集

以下是網絡上機器學習最有用的數據集：

波士頓住房數據集

機器學習數據集中的流行選擇。它用於模式識別。它包含有關波士頓各種房屋的信息，包括該地區的房間數量、稅率和犯罪率等數據。該數據集由 506 行和數據列中的 14 個變量組成，適用於預測房價。

帕金森數據集

該數據集包含 195 個患者記錄，以及 23 個具有生物醫學測量值的不同屬性。您可以使用該數據集將健康患者與帕金森病患者區分開來。

數據庫

包含 25,000 條電影評論的數據集。這用於二元情感分類。

MIMIC-III

這是一個由麻省理工學院計算生理學實驗室創建的公開可用的數據集。它包含大約 40,000 名重症監護患者的健康數據。此處包含藥物、實驗室測試、生命體徵和人口統計等信息。

伯克利 DeepDrive BDD100k

Berkeley DeepDrive BDD100k 是目前用於開發自動駕駛汽車機器學習程序的最大數據集。它包含超過 100,000 個在不同氣候條件下一天中不同時間駕駛的視頻。這些數據基於紐約和舊金山這兩個城市。

Uber Pickups 數據集

該數據集包含 2014 年 4 月至 2014 年 9 月在紐約的 Uber 客戶接送信息。這種類型的客戶數據大約有 450 萬個，2015 年 1 月至 6 月還有 1400 萬個。您可以使用此數據集執行數據分析，以收集有關客戶的更多信息。這可以幫助公司顯著增強業務。

商城客戶數據集

這包含有關人們訪問商場的信息。該數據集包含性別、年齡、客戶 ID、支出分數等詳細信息。這在目標營銷中非常有用。根據年齡和消費分數等數據，企業可以將客戶分組。他們可以為這些群體創造獨特的客戶體驗。

結論

就像正確的單詞和短語可以讓一首詩長時間陪伴您一樣，成功的項目需要正確的數據集。這就是為什麼許多最好的公司都會招募數據工程師來為特定的機器學習系統創建最佳數據集。因此，請花點時間為機器學習準備數據集。

如果您有興趣了解有關機器學習的更多信息，請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑，該文憑專為工作專業人士設計，提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

什麼是機器學習數據集？

數據是機器學習最重要的組成部分。數據集是用於學習的信息集合。數據集通常來自與訓練數據不同的來源。此數據用於評估模型的工作情況。例如，要訓練圖像分類器，您將使用 ImageNet 集合中的圖像。值得注意的是，圖像可能同時存在於訓練和測試數據集中，但它必須屬於不同的類別。數據集的另一個流行用途是訓練圖像識別算法。要訓練算法，你必須有一萬張貓的圖像和一萬張狗的圖像。 ImageNet 是業界廣泛使用的數據集之一。

什麼是機器學習中的驗證數據集？

在監督機器學習中，我們有訓練數據集，它由輸入樣本及其所需輸出組成。驗證數據集是第二個數據集，沒有在其上訓練模型/模型參數。在訓練數據集上估計模型/模型參數。驗證數據集用於估計監督學習模型在未見樣本（即測試樣本）上的預期準確性。驗證數據集用於測量或估計監督學習模型的泛化誤差。

機器學習中使用了哪些流行的數據集？

我們可以使用幾個數據集來更好地進行機器學習。其中一些是：家庭收入和人口統計調查數據、美國人口普查局企業主調查、股票市場價格、美國公民的年齡和性別、美國各州的能源使用、購買、出售和出租房屋的百分比、Twitter 主題標籤、Facebook人們在 Facebook 上的點贊和其他活動、ImageNet 大規模視覺識別挑戰 (ILSVRC) 數據集、美國主要港口的月度運輸量等。還有更多數據集可供我們用於機器學習。