初学者的 10 大机器学习数据集项目创意 [2022]

已发表: 2021-01-04

寻找机器学习数据集确实很困难,但并非必须如此! 在本文中,我们共享了可用于机器学习项目的多个数据集。 我们还分享了每个数据集包含的内容以及指向它们的链接的详细信息。 我们的列表包括不同领域和各种规模的数据集,因此您可以根据自己的兴趣和专业知识选择一个。

除此之外,我们还分享了针对不同数据集的项目创意,因此您可以立即开始开展项目。 从事项目工作将帮助您测试您对机器学习算法的了解。 让我们开始吧:

目录

机器学习数据集项目思路

1. 安然邮件数据集

该数据集包含 150 多个用户的大约 5,00,000 封电子邮件。 所有这些电子邮件都来自一家名为 Enron 的公司,并且该数据集中存在的大多数电子邮件都来自其高级管理团队。 如果您想从事自然语言处理项目,那么您应该从这里开始。

安然的电子邮件数据集在 NLP 项目中广受欢迎,您将从中学到很多东西。 您可以创建 K-means 聚类模型,并使用它通过电子邮件文本识别任何欺诈活动。 K-means 聚类是一种无监督的 ML 算法,它根据项目的相似性将项目分成 k 个集群。

链接到数据集

2. Flickr的图像数据集

Flickr 是一项图像托管服务,在全球拥有数百万用户。 该数据集包含 30,000 张带有不同标题的图像。 您可以使用此数据集为图像创建字幕生成器。 该数据集以通过文本进行图像分析和图像描述而闻名。

您可以创建一个 CNN(卷积神经网络)模型,该模型分析图像并根据它在特定图像中识别的特征生成标题。 您可以通过数据集中可用的数千个字幕来训练模型。 构建字幕生成器将为您提供学习图像分析工作以及如何在实际案例中使用它的大量经验。

链接到数据集

3. Iris 数据集(初级)

如果您之前没有从事过机器学习项目,那么您应该从这里开始。 Iris 数据集因其简单性和大小而成为 ML 学生的热门选择。 它包含有关三种鸢尾花(一种花)的信息,例如它的萼片和花瓣大小。

该数据集的另一个名称是 Fisher 的 iris 数据集,因为它的来源。 Ronald Fisher 在他 1936 年的论文中使用了这个数据集。

Iris 数据集有 150 行的四列。 您可以使用此数据集创建分类模型。 分类模型根据项目的属性将项目分为不同的类别,创建一个模型也可以帮助您了解无监督学习和有监督学习之间的区别。

链接到数据集

4. 帕金森数据集

想要在医学领域使用机器学习的学生可以访问帕金森的数据集。 它是医疗领域机器学习项目的最佳数据集之一,因为它包含 195 个案例和 23 个属性。

帕金森病是一种神经系统疾病,它会影响基本运动。 运动缓慢、失去平衡和僵硬是这种疾病的一些最突出的症状。 您可以使用此数据集创建一个模型,通过分析患者的症状和属性来将患者与健康人区分开来,以确定他们是否患有帕金森氏症。

机器学习在医疗保健领域的使用每天都变得越来越流行。 因此,如果您有兴趣在该领域使用您的机器学习专业知识,您应该从这里开始。 您可以从这些机器学习在医疗保健中的应用中获得灵感

链接到数据集

5.商城客户数据集

该数据集包含有关人们访问购物中心的信息。 它包含多个变量,例如客户 ID、年收入、年龄、支出分数和性别。 该数据集根据客户的行为和倾向将客户分为不同的类别。

您可以使用此数据集创建一个分类模型,根据客户的性别、支出分数或年收入对其进行分类。 该数据集非常适合客户细分项目,这是 AI 和 ML 在业务中的流行应用。

公司使用客户细分来制定营销策略并增强他们的广告。 从事此项目将帮助您了解如何使用机器学习算法进行准确的客户细分。

链接到数据集

阅读:Python 项目理念

6. Uber Rides 数据集

这是用于可视化项目的最佳机器学习数据集之一。 Uber Rides 数据集包含有关 2014 年 4 月至 2014 年 9 月期间发生的 uber 乘车的信息。当时大约有 450 万次 uber 乘车,因此该数据集非常庞大。 该数据集包含与这些游乐设施相关的位置信息和其他相关数据。

您可以使用此数据集中存在的数据来创建漂亮的数据可视化。 数据可视化有助于从大量数据中获得有价值的见解。 除此之外,数据可视化有助于根据发现的见解做出更好的决策。 您可以从这些数据可视化项目中获得灵感来开始。

链接到数据集

7. 谷歌趋势及其数据

Google Trends 是一种工具,可让您分析 Google 搜索并找到人们正在搜索的热门话题。 这是一个免费但功能强大的工具,可以为您提供有关人们搜索模式和趋势的大量数据。

谷歌趋势允许您查找特定关键字及其相关字词在特定时间获得的搜索次数。 您还可以使用它来获取特定于人口统计的数据。

如果您打算使用机器学习进行数据分析,那么这是一个庞大的数据集。 您可以获得关于您想要的任何主题的尽可能多的数据。 谷歌趋势非常适合没有从事过许多机器学习项目的初学者。

链接到数据集

8.动力学数据集

如果您对使用 AI 来识别人类交互感兴趣,那么这就是适合您的数据集。 分析人类行为和交互是计算机视觉的重要组成部分,计算机视觉是研究图像和视频的人工智能领域。 精通计算机视觉将有助于您从事物体识别、面部识别和其他相关应用。

该数据集包含近 65 万个视频,这些视频具有人与人之间的互动(例如拥抱和握手)以及人与物体的互动(例如弹吉他)。 它有 700 个动作类,每个类至少有 600 个剪辑。 每个剪辑都有人工注释和一个动作类。 该数据集中每个视频的持续时间约为 10 秒。

链接到数据集

阅读:机器学习项目理念

9. GTSRB 数据

GTSRB 代表 German Traffic Sign Recognition Benchmark,它是一个执行多类分类的好项目。 该数据集包含超过 5 万张图像及其相关信息。 该数据集也有 40 个类,并且该数据集中的真实交通标志事件在其中是唯一的。

当您考虑其用例时,它是机器学习项目的最佳数据集之一。 您可以研究图像分类并创建一个框架来对不同的交通标志进行分类。

交通标志的分类可能是自动驾驶汽车(自动驾驶汽车)的关键部分,所以如果你对人工智能在汽车领域的应用感兴趣,你应该参与这个项目。

如果您在处理 ML 项目方面没有太多经验,则可以从该数据集的一小部分开始。

链接到数据集

10. 波士顿房屋数据集

波士顿住房数据集是机器学习项目中最受欢迎的数据集之一。 它适用于模式识别项目,是锻炼您的 ML 知识的好方法。 该数据集包含美国人口普查局收集的波士顿马萨诸塞地区住房信息,包含大约 500 个案例。 在数据集中,有 14 个变量,包括人均犯罪率、房屋的平均房间数等。

因为它的案例很少(准确地说是 506 个),所以它适合新的机器学习专业人士和学生。 您可以使用此数据集创建一个模型,根据您找到的数据预测该地区的房价。

您可以使用此数据集中存在的房屋价格训练模型,然后根据特定区域的条件使用它来预测未来价格。 使用此数据集,您可以处理许多类似的回归和房地产项目想法。

链接到数据集

是时候从事机器学习项目了

现在您已经拥有大量机器学习项目的数据集列表,您现在可以开始研究一个。 我们希望您发现此列表有用。

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

机器学习中的数据集是什么?

在机器学习和数据挖掘中,数据集是示例的集合。 它是一组标记的示例,用于机器学习或统计方法的应用。 示例可以是单个观察值或整个观察值集合。 识别数据集中的模式总是更容易。 数据是示例的集合。 它是机器学习和数据挖掘的核心。 在数据集中找到模式总是更容易。

数据集的类型有哪些?

数据集有不同的类型: 时间序列数据集 - 这描述了来自特定时间段的数据集被视为时间序列数据集。 湾。 横截面数据集 - 这描述了数据集,这些数据集是来自同一时间段内不同但相似元素的观察结果的集合。 C。 混合数据集 - 这描述了由时间序列和横截面数据集组合而成的数据集。 d。 组件数据集 - 这描述了用于解决特定问题的数据集的集合。 e. 事务数据集 描述用于查找各种实体之间的模式、关联和关系的数据集的集合。 F。 图形数据集 - 这描述了用于绘制图形或映射网络中的元素的数据集的集合。

什么是机器学习中的训练和测试数据集?

训练数据集是用于训练模型的一组示例。 该数据集用于构建将输入数据 x 映射到输出 y 的数学函数或模型 f(x)。 测试数据集与训练数据集不同。 测试数据集是一组不用于训练分类器的示例,用于评估分类器的性能。 由于分类器是在训练样本上训练的,因此分类器在测试数据集上的性能并不完全清楚。