机器学习项目的最佳数据集：所有你需要知道的

已发表: 2020-03-20

介绍

机器学习是当今使用的最强大的技术之一。它是人工智能的一个非常重要的分支，用于使计算机更智能——使它们能够在没有人工干预的情况下学习。这使得机器学习成为处理数据的重要工具。由于数据几乎无处不在，从制定业务决策到策划客户体验，机器学习使识别隐藏在这些庞大数据集中的模式变得更加容易。

最重要的是，这些数据集是组织大量原始数据的一种方式。使用这些数据集，编写程序来创建使业务运营更容易的应用程序。在本文中，我们了解机器学习的不同数据集。

但在进入之前，让我们先了解机器学习的基础知识。

什么是机器学习？

机器学习负责为您最喜欢的平台提供支持，例如 Netflix、Facebook、Twitter、YouTube、Spotify、Google 和百度。甚至 Alexa 和 Siri 等语音助手也会选择您喜欢的歌曲来使用机器学习！所有这些平台都试图使用与您相关的数据。这包括您的搜索、点击、您的视图、您分享的图片、评论、反应和帖子。了解有关顶级机器学习应用程序的更多信息。

机器学习利用这些数据来了解您的偏好。例如，Netflix 使用它来根据您观看的内容推荐您可能喜欢观看的电视剧。甚至像亚马逊这样的平台也使用机器学习来根据您之前的购买历史推荐您的产品。

机器学习市场最突出的部分是深度学习，到 2025 年可能达到 10 亿。

看起来很有趣？让我们进入该主题的技术细节。

机器学习的类别

机器学习大致分为三类——监督学习、无监督学习和强化学习。

监督学习

在这个过程中，计算机将从称为训练数据的数据集中学习。它将在此基础上做出决定并预测未来的结果。稍后您将了解用于机器学习的训练数据集。在这里，系统被输入输出对，在使用这些对时，它会学习它们是如何映射在一起的。这就像有一组带有正确答案的问题。

当系统或算法学习输入-输出对之间的关系时，它可以在向其提供新输入时预测输出。详细了解监督学习的类型。

无监督学习

在这里，计算机在没有任何帮助的情况下查看数据集以识别隐藏模式。它可以处理复杂的任务并自行发现结果。了解有关无监督学习的更多信息。

强化学习

这种机器学习过程利用试错法来确定问题的解决方案。所以程序的输出将取决于提供给它的当前输入。

现在您对机器学习有了基本的了解，让我们继续讨论数据集。

什么是机器学习的数据集？

数据集，顾名思义，就是数据的集合。它可以是单个数据库的数据，其中一个变量用于表示列。该表的行可以由该特定数据集的成员表示。

为机器学习准备数据集很重要。这是因为算法无法在原始或非结构化数据上正常工作。需要一个适当的数据集来解决问题并做出决策。例如，天气应用程序可能没有包含过去几天或几周的气候数据的正确数据集。因此，它将无法为即将到来的一周提供准确的天气预报。

因此，如果没有适当的机器学习数据集，即使有训练有素的数据科学家，机器学习项目也不会成功。

机器学习数据集用于创建机器学习模型。这些模型使用数学表达式表示现实世界的问题。要生成这样的模型，您必须为其提供数据集以供学习和工作。

机器学习中使用的数据集类型如下：

1.训练数据集

这可能是机器学习数据集中最重要的。它被馈送到机器学习算法以创建模型。该算法寻找数据模式来识别输入变量。这将有助于它达到最终目标或期望的输出。此数据集的输出是可用于预测结果的机器学习模型。

大约 60% 的数据集被训练数据集占用。

2.验证数据集

在验证阶段使用验证数据集，同时创建机器学习项目。这个阶段就在训练之后。该数据集对于评估机器学习模型很重要。机器学习工程师使用这个集合来调整和调整模型的超参数。这些超参数是在程序开始学习之前设置了值的参数。

无法从数据中估计它们的值。例如，超参数可以包括树的深度或神经网络中未检测到的层数。

根据著名作家Max Kuhn 和 Kjell Johnson的说法，“必须使用未用于创建或调整数据模型的样本来评估数据模型。这为您提供了模型有效性的公正结果。在处理大量数据时，最好留出一些数据样本进行评估。训练集是用于构建模型的样本，而验证和测试样本用于分析其性能。”

3.测试数据集

机器学习的测试数据集用于了解机器学习模型在未来将如何工作。使用此数据集，您将能够了解您的数据模型的准确性。简单来说，这个数据集会告诉你你的数据模型从训练集中学到了多少。

这些集合占据了 20% 的数据。该集合将包含输入变量以及经过验证的输出。但是，在机器学习项目中，我们一般不会在测试阶段使用训练数据集。这是因为该算法将知道预期的输出，正如它之前从该数据集中学习的那样。

在测试阶段之后，通常不再调整数据模型。这是因为进一步调整会导致过拟合。当使用太多数据训练数据模型时，就会发生过度拟合。在这种情况下，模型开始从给定数据集中的不准确数据条目中学习。因此，它不能在新数据集上正常工作。这就像你不能穿上超大号牛仔裤一样！

但要让机器学习模型成功运行，您需要为其提供良好的数据集。没有机器学习的数据集，算法将无法学习和解决问题。例如，当您没有合适的书籍和资源时，您就无法通过您想要的考试。

为机器学习准备数据集

让我们找出为机器学习创建数据集所需的步骤。

数据采集

第一步是收集机器学习模型可能需要的所有相关数据。数据量将取决于机器学习项目的复杂性。一个简单的项目比一个复杂的项目需要更少的数据。因此，您需要确定解决手头问题实际需要的所有内容。

通过回答以下问题可以轻松收集数据：

您可以为项目提供哪些类型的数据？
项目所需的哪些数据不可用？ – 这可能包括某些数据库或存储在云系统中的数据。您可能需要派生这些数据。
您可以从现有数据中删除哪些数据？这意味着清除与您的项目无关的不需要的数据。

当你有了所有这些问题的答案后，你就可以开始从各种来源收集数据了。这些可以是文本文件、.csv 文件、查看 JSON 和 XML 文件和数据存储库中的嵌套数据结构。

现在您可以继续下一步，为机器学习创建数据集。

数据预处理

现在您已经拥有了所需的所有数据，您必须为您的模型正确处理这些数据。预处理方法是将原始数据集转换为可用的有意义的集合。该过程包括以下三个步骤：

格式化

您收集的许多原始数据的格式不适合您的机器学习模型。它可能在 JSON 文件或关系数据库中。您需要根据您的方便将此数据转换为文本文件或 .csv 文件。

打扫

这是您从数据集中修复和删除丢失和不需要的数据的过程。这些数据实例可能无助于解决问题。此外，您可能需要完全隐藏或删除某些属性中的敏感信息。这使您的机器学习数据集更有意义。

采样

您收集的数据可能比项目实际需要的多得多。大型数据集会消耗大量内存空间。当输入机器学习算法时，它们还会导致更长的运行时间和更多的计算。为了避免这些问题，您必须对所选数据进行更小的样本，以便您的模型可以轻松使用。这个过程称为采样。

特征工程

在这里，对数据集进行分析以确定有助于解决问题和进行预测的最佳特征和模式。所以，在这个过程中，可能会从一个大数据集中删除一些数据。重点是适合模型的最重要的功能。

数据可以分解成小部分以识别关键特征。例如，可以将特定年份的销售数据分解为月份和一周中的几天。这种方式对销售业绩的分析更加容易和快捷。这也有助于机器学习算法更快地计算。

拆分数据

现在必须将数据分成三组——训练、测试和验证。您需要将其分别分成 70%、20% 和 10% 的集合。为了进行正确的测试，请确保您只选择不重叠的数据子集。正确拆分数据集以使机器学习模型更快地达到所需的输出。您可以稍后细化数据模型。

好吧，您现在已经学会了如何为机器学习算法管理数据集。但是，如果您有一个项目即将推出，但没有时间构建自己的数据集怎么办？多亏了互联网，有许多现成的数据集可供您选择。

在线机器学习数据集

以下是网络上机器学习最有用的数据集：

波士顿住房数据集

机器学习数据集中的流行选择。它用于模式识别。它包含有关波士顿各种房屋的信息，包括该地区的房间数量、税率和犯罪率等数据。该数据集由 506 行和数据列中的 14 个变量组成，适用于预测房价。

帕金森数据集

该数据集包含 195 个患者记录，以及 23 个具有生物医学测量值的不同属性。您可以使用该数据集将健康患者与帕金森病患者区分开来。

数据库

包含 25,000 条电影评论的数据集。这用于二元情感分类。

MIMIC-III

这是一个由麻省理工学院计算生理学实验室创建的公开可用的数据集。它包含大约 40,000 名重症监护患者的健康数据。此处包含药物、实验室测试、生命体征和人口统计等信息。

伯克利 DeepDrive BDD100k

Berkeley DeepDrive BDD100k 是目前用于开发自动驾驶汽车机器学习程序的最大数据集。它包含超过 100,000 个在不同气候条件下一天中不同时间驾驶的视频。这些数据基于纽约和旧金山这两个城市。

Uber Pickups 数据集

该数据集包含 2014 年 4 月至 2014 年 9 月在纽约的 Uber 客户接送信息。这种类型的客户数据大约有 450 万个，2015 年 1 月至 6 月还有 1400 万个。您可以使用此数据集执行数据分析，以收集有关客户的更多信息。这可以帮助公司显着增强业务。

商城客户数据集

这包含有关人们访问商场的信息。该数据集包含性别、年龄、客户 ID、支出分数等详细信息。这在目标营销中非常有用。根据年龄和消费分数等数据，企业可以将客户分组。他们可以为这些群体创造独特的客户体验。

结论

就像正确的单词和短语可以让一首诗长时间陪伴您一样，成功的项目需要正确的数据集。这就是为什么许多最好的公司都会招募数据工程师来为特定的机器学习系统创建最佳数据集。因此，请花点时间为机器学习准备数据集。

如果您有兴趣了解有关机器学习的更多信息，请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭，该文凭专为工作专业人士设计，提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

什么是机器学习数据集？

数据是机器学习最重要的组成部分。数据集是用于学习的信息集合。数据集通常来自与训练数据不同的来源。此数据用于评估模型的工作情况。例如，要训练图像分类器，您将使用 ImageNet 集合中的图像。值得注意的是，图像可能同时存在于训练和测试数据集中，但它必须属于不同的类别。数据集的另一个流行用途是训练图像识别算法。要训练算法，你必须有一万张猫的图像和一万张狗的图像。 ImageNet 是业界广泛使用的数据集之一。

什么是机器学习中的验证数据集？

在监督机器学习中，我们有训练数据集，它由输入样本及其所需输出组成。验证数据集是第二个数据集，没有在其上训练模型/模型参数。在训练数据集上估计模型/模型参数。验证数据集用于估计监督学习模型在未见样本（即测试样本）上的预期准确性。验证数据集用于测量或估计监督学习模型的泛化误差。

机器学习中使用了哪些流行的数据集？

我们可以使用几个数据集来更好地进行机器学习。其中一些是：家庭收入和人口统计调查数据、美国人口普查局企业主调查、股票市场价格、美国公民的年龄和性别、美国各州的能源使用、购买、出售和出租房屋的百分比、Twitter 主题标签、Facebook人们在 Facebook 上的点赞和其他活动、ImageNet 大规模视觉识别挑战 (ILSVRC) 数据集、美国主要港口的月度运输量等。还有更多数据集可供我们用于机器学习。