数据科学及其应用初学者指南
已发表: 2018-02-24数据、科学或数据科学这些词不足以在读者中引起恐惧或恐惧感。 老实说,它们太可爱了,甚至令人反感,更不用说可怕了,不像那些词——镶嵌、k-mean、k-最近邻、欧几里得最小生成树等等——你的词将在您的数据科学之旅中遇到。
虽然“数据科学”不会引发恐惧,但它也无法解释该领域的任何内容。 每个人都知道什么是数据; 至少在外行的意义上。 数据本质上只是信息的原始比特。 另一方面,科学可以用来表示遵循科学方法的任何一组活动。
因此,按照这个逻辑,我们可以得出结论,数据科学是一个对大量数据使用科学方法的领域。 但是,为了什么? 数据科学到底是什么?
这就是我们今天要讨论的话题。 阅读本文后,您将能够回答以下问题:
- 什么是数据科学?
- 数据科学管道的不同阶段是什么?
- 我在哪里可以看到工作中的数据科学?
目录
什么是数据科学?
维基百科,所有百科全书之母,将数据科学定义为一个专注于通过使用科学方法从数据中提取知识和见解的领域。 然而,它没有告诉你的是,我们人类天生就是数据科学家。 如何? 让我们来看看。
无论你在做什么,你都在观察周围的世界。 在每一个清醒的时刻,你都在从周围环境中获取细节并将其反馈给你的大脑。 然后,您将这些观察结果处理成数据,并通过找出含义并预测接下来可能发生的事情来了解您周围的事物。
当你上班迟到一个小时时,你打电话告诉他们你将在家工作。 您正在使用您过去对交通和停车的观察结果,使您得出结论,您可能会失去在交通中的时间,而不是您在办公室获得的时间。 当你走进你的房间,看到巧克力包装纸到处都是,一个随意的分析会告诉你,有人在你不在的时候一直在吃你的巧克力。
值得关注的 4 大数据分析角色
在上面提到的任何一种情况下,如果您在脑海中进行这些计算和预测,而不记下它,那么您就是一个正常人。 另一方面,如果您继续记录这些数据点(当然以机器可读的格式),然后尝试设计算法(或程序)和计算机程序来运行应用程序。 如果这个“假设”系统的输出是“流量会很糟糕”,或者“你的室友吃了你的巧克力”,那么宾果游戏! 你是一名数据科学家。
就像上面的类比听起来一样简单(理论上)。 归根结底,您拥有数据、程序、算法和工具。 你只需要从中提取知识。 为了有效地做到这一点,您必须遵循一个工作流程/管道。 让我们看看典型的数据科学管道中包含哪些内容。
数据科学管道
数据科学管道讨论了整个过程的流程——从获取所需数据到进行准确的计算和预测。 让我们看看这个管道的元素:

获取您的数据
默认情况下,这是练习数据科学所需要做的第一件事——获取数据! 请注意——在获取数据时,您必须考虑一些事项。 您必须首先识别所有数据集(可以来自互联网或内部/外部数据库)。 然后,您应该将数据提取为可用的格式(CSV、XML、JSON 等)
以下是成为数据分析师需要掌握的顶级技能和工具
所需技能
- 数据库管理:SQL 或 NoSQL,取决于您的需要和要求。
- 查询这些数据库
- 以视频、音频、文本、文档等形式检索非结构化数据。
- 分布式存储:Hadoop、Apache Spark 或 Apache Flink。
擦洗/清理您的数据
数据清理应该是最重要的,因为系统的最终输出与您输入的数据一样好。 清理是指去除异常,填充空/缺失值,查看数据是否一致,以及其他这种性质的事情。
所需技能
- 脚本语言:Python、R、SAS
- 数据整理工具:Python Pandas、R
- 分布式处理:Hadoop、MapReduce/Spark
Exploring(探索性数据分析)
现在数据是干净的,您将开始了解您的数据具有哪些模式。 在此阶段使用不同类型的可视化和统计建模。 基本上,这个阶段旨在从我们的数据中得出隐藏的含义。
在探索性数据分析领域有很多事情要做。 如果您觉得这是您喜欢的事情,请不要忘记阅读我们的文章。
为了在这个阶段表现得更好,你需要让你的“蜘蛛侠感觉”刺痛。 发疯并发现奇怪的模式或趋势 - 始终留意开箱即用的东西。 但是,在这样做的同时,不要忘记您要解决的问题。 不要开箱即用。 探索性数据分析是一门艺术,艺术家应该时刻牢记观众。

所需技能
- Python 库:Numpy、Matplotlib、Pandas、Scipy
- R 库:GGplot2、Dplyr
- 推论统计
- 数据可视化
- 实验设计
建模(机器学习)
这是有趣的部分。 模型只是统计意义上的一般规则。 机器学习模型只是工具包中的一个工具。 您可以访问具有不同用例和目标的众多算法,简单的研究将引导您找到适合您业务需求的算法。
在清理数据并找出基本特征(在 EDA 阶段)之后,使用统计模型作为预测工具将增强您的整体决策。 预测分析不是回头看看“发生了什么?”,而是旨在回答“接下来会发生什么?” 和“我们应该怎么做?”。
所需技能
- 机器学习:监督/无监督/强化学习算法
- 评价方法
- 机器学习库:Python (Sci-kit Learn) / R (CARET)
- 线性代数和多元微积分
口译(数据讲故事)
这是管道中更具挑战性的任务之一。 在这里,您的目标是通过交流来解释您的发现。 归根结底,一切都是为了与观众建立联系——这就是讲故事的关键所在。
如果您无法将其重要性传达给办公室的非技术人员,甚至您的老板,那么您的发现几乎没有用处。 控制事情的一个好习惯是多排练。 试着根据你的发现编一个故事,然后告诉外行人(最好是孩子)。 如果他们明白,你的老板也会明白。 如果他们不这样做,那么,你知道爱因斯坦是怎么说的:
“如果你不能向一个六岁的孩子解释,你自己就不会理解。”
此阶段旨在获得真正的业务洞察力。 您在这里的主要挑战是可视化您的发现并以美观且易于理解的方式显示它们。
所需技能
- 了解您的业务领域
- 数据可视化工具:Tableau、D3.JS、Matplotlib、GGplot、Seaborn等。
- 沟通:演讲技巧——口头和书面。
这不是我们管道的终点。 如果您要真正发挥系统的最佳性能,您需要确保在需要时更新您的模型。 在数据科学中,一种尺寸并不适合所有人,你需要不断地重新审视和更新你的模型。
数据操纵:如何发现数据谎言?
数据科学的应用
现在很清楚,数据科学是一个广义的术语,它的应用也是如此。 智能手机上的几乎每个应用程序都依赖于数据。 因此,公平地说,几乎不可能列出数据科学的所有应用,因为它无处不在。
让我们来看看正在使用数据科学魔力的广泛领域:
1. 互联网搜索
Google 如何在几分之一秒内返回如此*准确*的搜索结果? 数据科学!
2.推荐系统
从 Facebook 或 LinkedIn 上的“您可能认识的人”到亚马逊上的“购买此产品的人也喜欢……”,再到 Spotify 上的每日精选播放列表,甚至 YouTube 上的“推荐视频”,一切都由数据科学推动。
3. 图像/语音/字符识别
这几乎是不言而喻的。 如果不是数据科学,你认为“Siri”背后的大脑是什么? 另外,当您上传与他们的照片时,您认为 Facebook 如何识别您的朋友? 这不是魔术。 这是科学——数据科学。
4. 游戏
EA Sports、索尼、任天堂、Zynga 和该领域的其他巨头已经将您的游戏体验提升到一个全新的水平。 游戏现在使用机器学习算法开发和改进,以便在您升级到更高级别时它们可以升级。
5.价格比较网站
这些网站由数据推动。 对他们来说,越多越好。 数据是使用 API 从相关网站获取的。 PriceGrabber、PriceRunner、Junglee、Shopzilla 都是这样的网站。
使用 Python 开始数据科学包起来…
如果您具有技术背景并且对数据有所了解,那么数据科学就是您的真正使命。 最好的部分? 在数据科学及其周围有很多事情要做和探索。 这是一个涵盖多种工具和技术的总称——掌握其中任何一种都将使您成为不断增长的数据科学市场中的资产。 upGrad 提供各种数据科学课程,让您保持领先地位。 不要忘记检查它们!
印度跨行业的数据科学范围是什么?
数据科学对印度的许多行业产生了巨大影响。 下面列出的每个行业都严重依赖数据科学,并为数据科学家提供了极好的前景。
1. 医疗保健:这是与医学、患者和疾病有关的任何事物的统称。 从更有效的诊断到医学研究,数据科学已经开始在这个行业中发挥关键作用。
2. 银行和保险——风险评估和欺诈检测:银行收集客户资料、以前的申请和支出,以及各种其他个人数据,尤其是贷款和保险方面的数据。 这就是数据科学的用武之地,因为它简化了流程并区分了低风险和高风险。
3. 营销和广告——所有数据触手可及,您可以分析和确定您的目标受众应该是谁,以便有效地推销您的服务或产品。
4. 航空业 - 航空业使用数据科学来分析飞机路径和航线。
数据科学家如何利用他们的技能来解决业务问题?
根据公司的需求,数据科学家必须采取不同的策略来解决业务挑战。 使用数学和计算机科学的混合模型,数据科学家从数据中收集可行的见解并帮助做出更好的决策。 数据科学在解决实际业务挑战方面的应用包括提高产品质量、自动化数字广告投放、通过预测需求和增长机会来增加收入、自动化招聘流程、在动态市场中设定价格以及其他用例。
数据科学的未来在哪里?
数据科学的未来非常令人兴奋,几乎在每个领域都有广泛的实施。 一些最好的数字原生公司,如谷歌、亚马逊、Facebook 等,已经在数据上投入了大量资金。 新兴技术的兴起与正在进行的研究相结合,将在未来带来创新的应用和用例。 从职业的角度来看,数据科学有很大的希望。
