数据科学框架:做出更好商业决策的 7 大步骤

已发表: 2019-12-26

数据科学是一个广阔的领域,涵盖了提取信息并帮助理解大量数据的各种技术和方法。 此外,数据驱动的决策可以带来巨大的商业价值。 因此,数据科学框架已成为现代科技企业的圣杯,大致列出了收集有意义见解的 7 个步骤。 这些包括:询问、获取、同化、分析、回答、建议和行动。 以下是每个步骤的概述以及与数据科学相关的一些重要概念。

目录

数据科学框架:步骤

1. 提问:数据科学框架的起点

与任何传统的科学研究一样,数据科学也始于一系列问题。 数据科学家是具有批判性思维能力的好奇者,他们质疑现有的假设和系统。 数据使他们能够验证他们的担忧并找到新的答案。 因此,正是这种好奇的思维启动了采取循证行动的过程。

2. 采集:收集所需数据

提出问题后,数据科学家必须从各种来源收集所需的数据,并进一步同化以使其有用。 他们部署特征工程等流程来确定支持数据挖掘、机器学习和模式识别算法的输入。 一旦确定了功能,就可以从开源下载数据或通过创建框架来记录或测量数据来获取数据。

3. 同化:转换收集到的数据

然后,必须对收集到的数据进行清理以供实际使用。 通常,它涉及管理缺失和不正确的值以及处理潜在的异常值。 无论数据建模多么稳健,糟糕的数据都无法给出好的结果。 清理数据至关重要,因为计算机遵循“垃圾进,垃圾出”的逻辑概念。 他们甚至会处理无意和无意义的输入,以产生不受欢迎和荒谬的输出。

不同形式的数据

数据可能以结构化或非结构化格式出现。 结构化数据通常采用离散变量或分类数据的形式,具有有限数量的可能性(例如,性别)或连续变量,包括整数或实数(例如,工资和温度)等数字数据。 另一种特殊情况是二进制变量只有两个值,例如是/否和真/假。

转换数据

有时,数据科学家可能希望匿名化数字数据或将其转换为离散变量以使其与算法同步。 例如,数值温度可以转换为分类变量,如热、中和冷。 这称为“分箱”。 另一个称为“编码”的过程可用于将分类数据转换为数字。

4.分析:进行数据挖掘

一旦获得并吸收了所需的数据,知识发现的过程就开始了。 数据分析涉及数据挖掘和探索性数据分析(EDA)等功能。 分析是数据科学框架中最重要的步骤之一

数据挖掘

数据挖掘是统计、人工智能、机器学习和数据库系统的交集。 它涉及在大型数据集中寻找模式,并将预先存在的数据结构化和汇总为有用的信息。 数据挖掘不同于信息检索(搜索网络或在电话簿中查找姓名等)。相反,它是一个系统过程,涵盖了连接数据点之间的点的各种技术。

探索性数据分析 (EDA)

EDA 是使用汇总统计和可视化技术描述和表示数据的过程。 在构建任何模型之前,进行此类分析以充分了解数据非常重要。 探索性分析的一些基本类型包括关联、聚类、回归和分类。 让我们一一了解它们。

协会

关联意味着识别哪些项目是相关的。 例如,在超市交易数据集中,可能有某些产品是一起购买的。 常见的联想可能是面包和黄油。 这些信息可用于制定生产决策、通过“组合”优惠提高销量等。

聚类

聚类涉及将数据分割成自然组。 该算法根据特定标准(例如学习时间和班级成绩)组织数据并确定聚类中心。 例如,一个班级可以分为自然分组或集群,即 Shirkers(不长时间学习并获得低分的学生)、Keen Learners(那些花大量时间学习并获得高分的学生)和 Masterminds(那些尽管没有长时间学习,但取得了高分)。

回归

进行回归以找出两个变量之间相关性的强度,也称为预测因果关系分析。 它包括通过将直线 (y=mx+b) 或曲线拟合到数据集来进行数值预测。 回归线也将有助于检测异常值——偏离所有其他观察的数据点。 原因可能是数据输入不正确或完全是单独的机制。

在课堂示例中,“Mastermind”组中的一些学生可能具有该学科的先前背景,或者可能在调查中输入了错误的学习时间和成绩。 异常值对于识别数据问题和可能的改进领域很重要。

分类

分类意味着为一组给定的特征和属性分配一个类或标签给新数据。 从过去的数据中生成特定规则以启用相同的规则。 决策树是一种常见的分类方法。 它可以根据考试成绩和学习时间预测学生是偷懒者、热衷学习者还是策划者。 例如,一个学习不到 3 小时且得分 75% 的学生可以被标记为偷懒者。

5. 回答问题:设计数据模型

如果没有构建增强决策过程的模型,数据科学框架是不完整的。 建模有助于表示存储在数据库中的数据点之间的关系。 在真实的商业环境中处理数据可能比直觉更混乱。 因此,创建一个合适的模型至关重要。 此外,应不时评估、微调和更新模型,以达到所需的性能水平。

6. 忠告:提出替代决定

下一步是使用从数据模型中获得的见解来提供建议。 这意味着数据科学家的角色不仅仅是处理数字和分析数据。 工作的很大一部分是向管理层提供可行的建议,以提高盈利能力,然后实现业务价值。 建议包括优化、模拟、不确定性下的决策、项目经济学等技术的应用。

7. 行动:选择所需的步骤

在根据业务情况和偏好评估建议后,管理层可以选择要实施的特定行动或一组行动。 有数据科学支持的决策可以在很大程度上降低业务风险。

学习世界顶尖大学的数据科学课程获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

结论

数据科学在当今以技术为主导的世界中有着广泛的应用。 上述数据科学框架大纲将作为将数据科学应用于您的业务的路线图!

如果您对学习数据科学以走在快节奏技术进步的前沿感到好奇,请查看 upGrad 和 IIIT-B 的数据科学 PG 文凭。

NumPy 被认为是一个框架吗?

Python 中的 NumPy 包是科学计算的支柱。 是的,NumPy 是一个用于科学计算的 Python 框架和模块。 它带有一个高性能的多维数组对象和操作它的工具。 NumPy 是一个用于 Python 的强大的 N 维数组对象,它实现了线性代数。

在数据科学中,什么是无监督分箱?

分箱或离散化将连续或数值变量转换为分类特征。 无监督分箱是一种分箱,其中将数值或连续变量转换为分类箱,而不考虑预期的类别标签。

数据科学中的分类和回归算法有何不同?

我们的学习方法训练了一个函数,在分类任务中将输入转换为输出,输出值是一个离散的类标签。 另一方面,回归问题解决了输入到输出的映射,其中输出是连续实数。 一些算法是专门为回归类型的问题设计的,比如线性回归模型,而其他算法,比如逻辑回归,是为分类工作设计的。 天气预测、房价预测和其他回归问题可以使用回归算法来解决。 分类算法可用于解决诸如识别垃圾邮件、语音识别和癌细胞识别等问题。