数据科学、机器学习和大数据之间的区别!

已发表: 2017-11-03

许多专业人士和“数据”爱好者经常问:“数据科学、机器学习和大数据有什么区别?” 这是当今经常被问到的问题。

目录

以下是数据科学、机器学习和大数据之间的区别:

数据科学

数据科学遵循跨学科方法。 它位于数学、统计学、人工智能、软件工程和设计思维的交叉点。 数据科学处理数据收集、清理、分析、可视化、模型创建、模型验证、预测、设计实验、假设检验等等。 所有这些步骤的目的只是从数据中获得洞察力。

数字化正以指数级的速度发展。 互联网可访问性正在以惊人的速度改善。 越来越多的人被数字生态系统所吸引。 所有这些活动都在生成大量数据。 公司目前正坐在数据地雷上。 但数据本身并没有多大用处。 这就是数据科学发挥作用的地方。 它有助于挖掘这些数据并从中获得洞察力; 采取有意义的行动。 各种数据科学工具可以帮助我们产生洞察力。 如果您是初学者并且有兴趣了解有关数据科学的更多信息,请查看我们来自顶尖大学的数据科学家课程。

存在框架来帮助从数据中获得洞察力。 框架只不过是一个支持结构。 它是用于构建数据科学项目开发​​的生命周期。 生命周期概述了项目通常遵循的步骤——从开始到结束。 换句话说,它将复杂的挑战分解为简单的步骤。
这可确保不会错过任何导致从数据中产生可操作见解的重要阶段。

一个这样的框架是“数据挖掘的跨行业标准流程”,缩写为 CRISP-DM 框架。 另一个是微软的“团队数据科学流程”(TDSP)。

让我们借助一个例子来理解这一点。 一家名为“X”的银行,已经经营了十年。 它收到一个客户的贷款申请。 现在,它想预测该客户是否会拖欠偿还贷款。 银行如何才能完成这项任务?

与其他所有银行一样,X 必须捕获有关其客户各个方面的数据,例如人口统计数据、客户相关数据等。在过去十年中,许多客户会成功偿还贷款,但有些客户会默认。 这家银行如何利用这些数据来提高其盈利能力? 简而言之,它如何避免向极有可能违约的客户提供贷款? 他们如何确保不会失去更有可能偿还债务的好客户? 数据科学可以帮助我们解决这一挑战。

原始数据 —> 数据科学 —> 可操作的见解

让我们了解数据科学的各个分支将如何帮助银行克服挑战。 统计数据将有助于设计实验、发现变量之间的相关性、假设检验、探索性数据分析等。在这种情况下,客户的贷款目的或教育资格可能会影响他们的贷款违约。 在执行数据清理和探索性研究之后,数据就可以进行建模了。

统计和人工智能为模型创建提供算法。 模型创建是机器学习发挥作用的地方。 机器学习是人工智能的一个分支,数据科学利用它来实现其目标。 在继续银行示例之前,让我们了解什么是机器学习。
掌握数据的主要步骤,相信我,我已经尝试过了

机器学习

“机器学习是人工智能的一种形式。 它使机器能够学习,而无需明确编程。”

你可能会问,机器如何在没有明确编程的情况下学习? 计算机不只是按照指令制造的设备吗? 不再。
机器学习由一套智能算法组成,使机器无需明确编程即可学习。 机器学习可帮助您学习目标函数——将输入映射到目标变量,或将自变量映射到因变量。

在我们的银行示例中,目标函数确定了影响贷款违约概率的各种人口统计、客户和行为变量。 独立属性或输入是客户的人口统计、客户和行为变量。 因变量要么是“默认”,要么不是。 目标函数是将这些输入映射到输出的方程。 它是一个函数,它告诉我们哪些自变量影响因变量,即违约倾向。 导出目标函数的过程,将输入映射到输出,称为建模。

最初,此目标函数将无法准确预测客户是否会违约。 当模型遇到新实例时,它会学习和进化。 随着越来越多的示例可用,它会有所改进。 最终,该模型达到了能够以一定精度进行判断的阶段。

例如,哪个客户将违约,以及银行可以依靠谁来提高其盈利能力。
机器学习旨在实现“通用性”。 这意味着,将输入映射到输出的目标函数应该应用于尚未遇到它的数据。 在银行示例中,我们的模型从提供给它的数据中学习模式。 该模型确定哪些变量会影响违约趋势。 如果新客户申请贷款,此时此模型尚未看到他/她的变量。 该模型也应该与该客户相关。 它应该可靠地预测该客户是否会违约。

如果这个模型不能做到这一点,那么它就不能概括看不见的数据。 这是一个迭代过程。 我们需要创建许多模型来查看哪些有效,哪些无效。
数据科学和分析利用机器学习来创建和验证这种模型。 需要注意的是,此模型创建的所有算法都不是来自机器学习。 他们可以从其他各种领域进入。 该模型需要始终保持相关性。 如果条件发生变化,那么我们之前创建的模型可能会变得无关紧要。

需要在不同时间检查模型的可预测性,如果其可预测性降低,则需要对其进行修改。 为了让银行员工在客户申请贷款时立即做出决定,该模型需要与银行的 IT 系统集成。 银行的服务器应托管该模型。 当客户申请贷款时,他的变量必须从网站上捕获并由服务器上运行的模型使用。

然后,该模型应立即将决定(是否可以授予信贷)传达给银行员工。 这个过程属于信息技术领域,数据科学也利用了这一领域。

最后,一切都是为了传达分析的结果。 在这里,需要演示和讲故事的技巧来有效地展示研究的效果。 设计思维有助于将结果可视化,并有效地从分析中讲述故事。
密切关注下一件大事:机器学习

大数据

我们拼图的最后一块是“大数据”。 它与数据科学和机器学习有何不同?

根据 IBM 的说法,我们每天创建 2.5 Quintillion (2.5 × 1018) 字节的数据! 公司收集的数据量如此之大,以至于在数据采集、存储、分析和可视化方面带来了大量挑战。 问题不完全在于可用数据的数量,还在于其多样性、准确性和速度。 所有这些挑战都需要一套新的方法和技术来应对这些挑战。

大数据涉及四个“V”——数量、种类、准确性和速度——这将其与传统数据区分开来。
数据科学机器学习与大数据之间的区别

体积:

这里涉及的数据量非常庞大,需要专门的基础设施来获取、存储和分析它。 采用分布式和并行计算方法来处理这种数据量。

种类:

数据有多种格式; 结构化或非结构化等。结构化意味着整齐排列的行和列。 非结构化意味着它以段落,视频和图像等形式出现。这种数据也包含大量信息。 非结构化数据需要与传统 RDBMS 不同的数据库系统。 Cassandra 就是这样一种用于管理非结构化数据的数据库。

真实性:

大量数据的存在不会带来可操作的见解。 它需要正确才能有意义。 需要格外小心以确保捕获的数据是准确的,并且随着数据量和种类的增加而保持神圣性。

速度:

它指的是生成数据的速度。 当今世界上 90% 的数据都是在过去两年中创建的。 然而,这种生成的信息速度也带来了一系列挑战。 对于一些企业来说,实时分析至关重要。 任何延迟都会降低数据的价值及其对业务的分析。 Spark 就是这样一种有助于分析流数据的平台。

随着时间的推移,新的“V”被添加到大数据的定义中。 但是——数量、种类、准确性和速度——是区分数据和大数据的四个基本要素。 处理大数据的算法(包括机器学习算法)经过优化,可以利用不同的硬件基础设施来处理大数据。
金融行业中的大数据角色和薪酬

总而言之,数据科学执行 PG 计划是一个跨学科领域,旨在从数据中获得可操作的见解。 机器学习是人工智能的一个分支,数据科学利用它来教机器学习的能力,而无需明确说明

程序。 数量、种类、准确性和速度是区分大数据与传统数据的四个重要组成部分。

为未来的职业做准备

申请数据科学理学硕士