数据科学、机器学习和大数据之间的区别！

已发表: 2017-11-03

许多专业人士和“数据”爱好者经常问：“数据科学、机器学习和大数据有什么区别？” 这是当今经常被问到的问题。

以下是数据科学、机器学习和大数据之间的区别：

数据科学

数据科学遵循跨学科方法。它位于数学、统计学、人工智能、软件工程和设计思维的交叉点。数据科学处理数据收集、清理、分析、可视化、模型创建、模型验证、预测、设计实验、假设检验等等。所有这些步骤的目的只是从数据中获得洞察力。

数字化正以指数级的速度发展。互联网可访问性正在以惊人的速度改善。越来越多的人被数字生态系统所吸引。所有这些活动都在生成大量数据。公司目前正坐在数据地雷上。但数据本身并没有多大用处。这就是数据科学发挥作用的地方。它有助于挖掘这些数据并从中获得洞察力； 采取有意义的行动。 各种数据科学工具可以帮助我们产生洞察力。如果您是初学者并且有兴趣了解有关数据科学的更多信息，请查看我们来自顶尖大学的数据科学家课程。

存在框架来帮助从数据中获得洞察力。框架只不过是一个支持结构。它是用于构建数据科学项目开发的生命周期。生命周期概述了项目通常遵循的步骤——从开始到结束。换句话说，它将复杂的挑战分解为简单的步骤。
这可确保不会错过任何导致从数据中产生可操作见解的重要阶段。

一个这样的框架是“数据挖掘的跨行业标准流程”，缩写为 CRISP-DM 框架。另一个是微软的“团队数据科学流程”（TDSP）。

让我们借助一个例子来理解这一点。一家名为“X”的银行，已经经营了十年。它收到一个客户的贷款申请。现在，它想预测该客户是否会拖欠偿还贷款。银行如何才能完成这项任务？

与其他所有银行一样，X 必须捕获有关其客户各个方面的数据，例如人口统计数据、客户相关数据等。在过去十年中，许多客户会成功偿还贷款，但有些客户会默认。这家银行如何利用这些数据来提高其盈利能力？简而言之，它如何避免向极有可能违约的客户提供贷款？他们如何确保不会失去更有可能偿还债务的好客户？数据科学可以帮助我们解决这一挑战。

原始数据 —> 数据科学 —> 可操作的见解

让我们了解数据科学的各个分支将如何帮助银行克服挑战。统计数据将有助于设计实验、发现变量之间的相关性、假设检验、探索性数据分析等。在这种情况下，客户的贷款目的或教育资格可能会影响他们的贷款违约。在执行数据清理和探索性研究之后，数据就可以进行建模了。

统计和人工智能为模型创建提供算法。模型创建是机器学习发挥作用的地方。 机器学习是人工智能的一个分支，数据科学利用它来实现其目标。 在继续银行示例之前，让我们了解什么是机器学习。
掌握数据的主要步骤，相信我，我已经尝试过了

机器学习

“机器学习是人工智能的一种形式。它使机器能够学习，而无需明确编程。”

你可能会问，机器如何在没有明确编程的情况下学习？计算机不只是按照指令制造的设备吗？不再。
机器学习由一套智能算法组成，使机器无需明确编程即可学习。机器学习可帮助您学习目标函数——将输入映射到目标变量，或将自变量映射到因变量。

在我们的银行示例中，目标函数确定了影响贷款违约概率的各种人口统计、客户和行为变量。独立属性或输入是客户的人口统计、客户和行为变量。因变量要么是“默认”，要么不是。目标函数是将这些输入映射到输出的方程。它是一个函数，它告诉我们哪些自变量影响因变量，即违约倾向。导出目标函数的过程，将输入映射到输出，称为建模。

最初，此目标函数将无法准确预测客户是否会违约。当模型遇到新实例时，它会学习和进化。随着越来越多的示例可用，它会有所改进。最终，该模型达到了能够以一定精度进行判断的阶段。

例如，哪个客户将违约，以及银行可以依靠谁来提高其盈利能力。
机器学习旨在实现“通用性”。 这意味着，将输入映射到输出的目标函数应该应用于尚未遇到它的数据。在银行示例中，我们的模型从提供给它的数据中学习模式。该模型确定哪些变量会影响违约趋势。如果新客户申请贷款，此时此模型尚未看到他/她的变量。该模型也应该与该客户相关。它应该可靠地预测该客户是否会违约。

如果这个模型不能做到这一点，那么它就不能概括看不见的数据。 这是一个迭代过程。 我们需要创建许多模型来查看哪些有效，哪些无效。
数据科学和分析利用机器学习来创建和验证这种模型。需要注意的是，此模型创建的所有算法都不是来自机器学习。他们可以从其他各种领域进入。该模型需要始终保持相关性。如果条件发生变化，那么我们之前创建的模型可能会变得无关紧要。

需要在不同时间检查模型的可预测性，如果其可预测性降低，则需要对其进行修改。为了让银行员工在客户申请贷款时立即做出决定，该模型需要与银行的 IT 系统集成。银行的服务器应托管该模型。当客户申请贷款时，他的变量必须从网站上捕获并由服务器上运行的模型使用。

然后，该模型应立即将决定（是否可以授予信贷）传达给银行员工。这个过程属于信息技术领域，数据科学也利用了这一领域。

最后，一切都是为了传达分析的结果。在这里，需要演示和讲故事的技巧来有效地展示研究的效果。设计思维有助于将结果可视化，并有效地从分析中讲述故事。
密切关注下一件大事：机器学习

大数据

我们拼图的最后一块是“大数据”。它与数据科学和机器学习有何不同？

根据 IBM 的说法，我们每天创建 2.5 Quintillion (2.5 × 1018) 字节的数据！ 公司收集的数据量如此之大，以至于在数据采集、存储、分析和可视化方面带来了大量挑战。问题不完全在于可用数据的数量，还在于其多样性、准确性和速度。所有这些挑战都需要一套新的方法和技术来应对这些挑战。

大数据涉及四个“V”——数量、种类、准确性和速度——这将其与传统数据区分开来。

体积：

这里涉及的数据量非常庞大，需要专门的基础设施来获取、存储和分析它。采用分布式和并行计算方法来处理这种数据量。

种类：

数据有多种格式；结构化或非结构化等。结构化意味着整齐排列的行和列。非结构化意味着它以段落，视频和图像等形式出现。这种数据也包含大量信息。非结构化数据需要与传统 RDBMS 不同的数据库系统。 Cassandra 就是这样一种用于管理非结构化数据的数据库。

真实性：

大量数据的存在不会带来可操作的见解。它需要正确才能有意义。需要格外小心以确保捕获的数据是准确的，并且随着数据量和种类的增加而保持神圣性。

速度：

它指的是生成数据的速度。当今世界上 90% 的数据都是在过去两年中创建的。然而，这种生成的信息速度也带来了一系列挑战。对于一些企业来说，实时分析至关重要。任何延迟都会降低数据的价值及其对业务的分析。 Spark 就是这样一种有助于分析流数据的平台。

随着时间的推移，新的“V”被添加到大数据的定义中。但是——数量、种类、准确性和速度——是区分数据和大数据的四个基本要素。处理大数据的算法（包括机器学习算法）经过优化，可以利用不同的硬件基础设施来处理大数据。
金融行业中的大数据角色和薪酬

总而言之，数据科学执行 PG 计划是一个跨学科领域，旨在从数据中获得可操作的见解。机器学习是人工智能的一个分支，数据科学利用它来教机器学习的能力，而无需明确说明

程序。数量、种类、准确性和速度是区分大数据与传统数据的四个重要组成部分。

为未来的职业做准备

申请数据科学理学硕士