初學者的 10 大機器學習數據集項目創意 [2022]

已發表: 2021-01-04

尋找機器學習數據集確實很困難,但並非必須如此! 在本文中,我們共享了可用於機器學習項目的多個數據集。 我們還分享了每個數據集包含的內容以及指向它們的鏈接的詳細信息。 我們的列表包括不同領域和各種規模的數據集,因此您可以根據自己的興趣和專業知識選擇一個。

除此之外,我們還分享了針對不同數據集的項目創意,因此您可以立即開始開展項目。 從事項目工作將幫助您測試您對機器學習算法的了解。 讓我們開始吧:

目錄

機器學習數據集項目思路

1. 安然郵件數據集

該數據集包含 150 多個用戶的大約 5,00,000 封電子郵件。 所有這些電子郵件都來自一家名為 Enron 的公司,並且該數據集中存在的大多數電子郵件都來自其高級管理團隊。 如果您想從事自然語言處理項目,那麼您應該從這裡開始。

安然的電子郵件數據集在 NLP 項目中廣受歡迎,您將從中學到很多東西。 您可以創建 K-means 聚類模型,並使用它通過電子郵件文本識別任何欺詐活動。 K-means 聚類是一種無監督的 ML 算法,它根據項目的相似性將項目分成 k 個集群。

鏈接到數據集

2. Flickr的圖像數據集

Flickr 是一項圖像託管服務,在全球擁有數百萬用戶。 該數據集包含 30,000 張帶有不同標題的圖像。 您可以使用此數據集為圖像創建字幕生成器。 該數據集以通過文本進行圖像分析和圖像描述而聞名。

您可以創建一個 CNN(卷積神經網絡)模型,該模型分析圖像並根據它在特定圖像中識別的特徵生成標題。 您可以通過數據集中可用的數千個字幕來訓練模型。 構建字幕生成器將為您提供學習圖像分析工作以及如何在實際案例中使用它的大量經驗。

鏈接到數據集

3. Iris 數據集(初級)

如果您之前沒有從事過機器學習項目,那麼您應該從這裡開始。 Iris 數據集因其簡單性和大小而成為 ML 學生的熱門選擇。 它包含有關三種鳶尾花(一種花)的信息,例如它的萼片和花瓣大小。

該數據集的另一個名稱是 Fisher 的 iris 數據集,因為它的來源。 Ronald Fisher 在他 1936 年的論文中使用了這個數據集。

Iris 數據集有 150 行的四列。 您可以使用此數據集創建分類模型。 分類模型根據項目的屬性將項目分為不同的類別,創建一個分類模型也可以幫助您了解無監督學習和有監督學習之間的區別。

鏈接到數據集

4. 帕金森數據集

想要在醫學領域使用機器學習的學生可以訪問帕金森的數據集。 它是醫療領域機器學習項目的最佳數據集之一,因為它包含 195 個案例和 23 個屬性。

帕金森病是一種神經系統疾病,它會影響基本運動。 運動緩慢、失去平衡和僵硬是這種疾病的一些最突出的症狀。 您可以使用此數據集創建一個模型,通過分析患者的症狀和屬性來將患者與健康人區分開來,以確定他們是否患有帕金森氏症。

機器學習在醫療保健領域的使用每天都變得越來越流行。 因此,如果您有興趣在該領域使用您的機器學習專業知識,您應該從這裡開始。 您可以從這些機器學習在醫療保健中的應用中獲得靈感

鏈接到數據集

5.商城客戶數據集

該數據集包含有關人們訪問購物中心的信息。 它包含多個變量,例如客戶 ID、年收入、年齡、支出分數和性別。 該數據集根據客戶的行為和傾向將客戶分為不同的類別。

您可以使用此數據集創建一個分類模型,根據客戶的性別、支出分數或年收入對其進行分類。 該數據集非常適合客戶細分項目,這是 AI 和 ML 在業務中的流行應用。

公司使用客戶細分來製定營銷策略並增強他們的廣告。 從事此項目將幫助您了解如何使用機器學習算法進行準確的客戶細分。

鏈接到數據集

閱讀:Python 項目理念

6. Uber Rides 數據集

這是用於可視化項目的最佳機器學習數據集之一。 Uber Rides 數據集包含有關 2014 年 4 月至 2014 年 9 月期間發生的 uber 乘車的信息。當時大約有 450 萬次 uber 乘車,因此該數據集非常龐大。 該數據集包含與這些遊樂設施相關的位置信息和其他相關數據。

您可以使用此數據集中存在的數據來創建漂亮的數據可視化。 數據可視化有助於從大量數據中獲得有價值的見解。 除此之外,數據可視化有助於根據發現的見解做出更好的決策。 您可以從這些數據可視化項目中獲得靈感來開始。

鏈接到數據集

7. 谷歌趨勢及其數據

Google Trends 是一種工具,可讓您分析 Google 搜索並找到人們正在搜索的熱門話題。 這是一個免費但功能強大的工具,可以為您提供有關人們搜索模式和趨勢的大量數據。

谷歌趨勢允許您查找特定關鍵字及其相關字詞在特定時間獲得的搜索量。 您還可以使用它來獲取特定於人口統計的數據。

如果您打算使用機器學習進行數據分析,那麼這是一個龐大的數據集。 您可以獲得關於您想要的任何主題的盡可能多的數據。 谷歌趨勢非常適合沒有從事過許多機器學習項目的初學者。

鏈接到數據集

8.動力學數據集

如果您對使用 AI 來識別人類交互感興趣,那麼這就是適合您的數據集。 分析人類行為和交互是計算機視覺的重要組成部分,計算機視覺是研究圖像和視頻的人工智能領域。 精通計算機視覺將有助於您從事物體識別、面部識別和其他相關應用。

該數據集包含近 65 萬個視頻,這些視頻具有人與人之間的互動(例如擁抱和握手)以及人與物體的互動(例如彈吉他)。 它有 700 個動作類,每個類至少有 600 個剪輯。 每個剪輯都有人工註釋和一個動作類。 該數據集中每個視頻的持續時間約為 10 秒。

鏈接到數據集

閱讀:機器學習項目理念

9. GTSRB 數據

GTSRB 代表 German Traffic Sign Recognition Benchmark,它是一個執行多類分類的好項目。 該數據集包含超過 5 萬張圖像及其相關信息。 該數據集也有 40 個類,並且該數據集中的真實交通標誌事件在其中是唯一的。

當您考慮其用例時,它是機器學習項目的最佳數據集之一。 您可以研究圖像分類並創建一個框架來對不同的交通標誌進行分類。

交通標誌的分類可能是自動駕駛汽車(自動駕駛汽車)的關鍵部分,所以如果你對人工智能在汽車領域的應用感興趣,你應該參與這個項目。

如果您在處理 ML 項目方面沒有太多經驗,則可以從該數據集的一小部分開始。

鏈接到數據集

10. 波士頓房屋數據集

波士頓住房數據集是機器學習項目中最受歡迎的數據集之一。 它適用於模式識別項目,是鍛煉您的 ML 知識的好方法。 該數據集包含美國人口普查局收集的波士頓馬薩諸塞地區住房信息,包含大約​​ 500 個案例。 在數據集中,有 14 個變量,包括人均犯罪率、房屋的平均房間數等。

因為它的案例很少(準確地說是 506 個),所以它適合新的機器學習專業人士和學生。 您可以使用此數據集創建一個模型,根據您找到的數據預測該地區的房價。

您可以使用此數據集中存在的房屋價格訓練模型,然後根據特定區域的條件使用它來預測未來價格。 使用此數據集,您可以處理許多類似的回歸和房地產項目想法。

鏈接到數據集

是時候從事機器學習項目了

現在您已經擁有大量機器學習項目的數據集列表,您現在可以開始研究一個。 我們希望您發現此列表有用。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

機器學習中的數據集是什麼?

在機器學習和數據挖掘中,數據集是示例的集合。 它是一組標記的示例,用於機器學習或統計方法的應用。 示例可以是單個觀察值或整個觀察值集合。 識別數據集中的模式總是更容易。 數據是示例的集合。 它是機器學習和數據挖掘的核心。 在數據集中找到模式總是更容易。

數據集的類型有哪些?

數據集有不同的類型: 時間序列數據集 - 這描述了來自特定時間段的數據集被視為時間序列數據集。 灣。 橫截面數據集 - 這描述了數據集,這些數據集是來自同一時間段內不同但相似元素的觀察結果的集合。 C。 混合數據集 - 這描述了由時間序列和橫截面數據集組合而成的數據集。 d。 組件數據集 - 這描述了用於解決特定問題的數據集的集合。 e. 事務數據集 描述用於查找各種實體之間的模式、關聯和關係的數據集的集合。 F。 圖形數據集 - 這描述了用於繪製圖形或映射網絡中的元素的數據集的集合。

什麼是機器學習中的訓練和測試數據集?

訓練數據集是用於訓練模型的一組示例。 該數據集用於構建將輸入數據 x 映射到輸出 y 的數學函數或模型 f(x)。 測試數據集與訓練數據集不同。 測試數據集是一組不用於訓練分類器的示例,用於評估分類器的性能。 由於分類器是在訓練樣本上訓練的,因此分類器在測試數據集上的性能並不完全清楚。