数据科学家:神话与现实
已发表: 2018-04-05任何迅速获得动力的事物都会成为每个人都在谈论的话题。 而且,人们谈论的越多,误解和神话就越多。 数据科学和分析就是这样一个不断上升的领域,随之而来的是越来越多的相关神话。
今天,我们将揭穿这些围绕数据科学家的生活和工作的神话和误解。 但在我们继续讨论之前,让我们先了解一下数据科学家生活中典型的一天。
一个组织拥有大量数据,这些数据随着时间的推移从各种来源以各种格式收集。 现在,他们决定为此做点什么。 他们想让他们的数据发挥作用。 他们求助于谁?
数据科学家!
是的,大多数人将数据科学家误认为是一些超自然的生物。 这些人是任何组织数据分析团队的核心和灵魂。 他们担任重要职位,尽管您可能会感到惊讶,但他们的日常工作与任何其他白领员工的典型日子非常相似。
目录
会议,会议,还有更多的会议!
数据科学家必须参加会议,主要是每天一次,以收集需求、讨论完成的工作并计划一天的工作。 还有对组织目标和克服业务问题很重要的内部会议。 总而言之,这些会议的目的是更清楚地了解手头的问题,并确保组织中的每个人都了解前进的方向。
搜寻数据并使其原始!
他们一天中的一部分时间是用来识别他们的组织面临的现实问题,并找出让他们的数据有助于解决这些问题的方法。 然后是更具挑战性的部分——确定所需数据的类型和来源。 经验丰富的数据科学家总是从最相关的来源中挑选数据——那些可能带来价值的来源。
然而,这需要经验和专业知识。 因此,数据科学家需要花费大量时间在这上面。
然而,收集数据只完成了一半的工作。 数据科学家还需要确保数据经过验证和清理。 如果他们使用不完美的数据,成功的机会就会成倍下降。
数据科学统计学基础开始做魔术。 我们的意思是分析。
当数据被完全清理后,数据科学家将剩余的时间花在从数据中识别趋势和模式上。 这是数据科学家工作的另一个有问题的方面,特别是因为没有固定的方法来有效地分析这些数据。 通常情况下,它需要数据科学家设计他们的工具和算法,或者用现有的工具和算法对其进行调整。 这需要开放的心态和尝试的意愿。
编织一个故事。
在分析数据集之后,接下来是最重要的部分——数据可视化。 数据科学家需要在主要是非技术人员的观众面前展示他们的发现,比如公司的利益相关者和营销人员。 这并不总是一项日常任务,但需要经常完成以保持运转。 数据科学家在这里的重要工作量包括提出一种可视化技术,该技术不仅可以捕捉数据的本质,还可以以美观的方式呈现所有内容。
数据科学家的角色是非常动态的。 没有两天对他们来说是一样的。 他们的工作要求他们保持警觉,并始终戴上思考帽。 他们正在使用的数据、他们要解决的问题以及他们希望发现的见解都在不断变化。 这就是使数据科学家的角色如此独特和令人兴奋的原因。

现在,向前迈出一步,揭穿更多此类、有时甚至是荒谬的神话:视频
Youtube 视频
误区 1:您需要成为拥有博士学位的专业统计学家。 在统计中。 或者,至少,你必须拥有统计学学位。
是的,拥有正式的统计学学位将确保您从第一天起就掌握了更好的统计学实践。但是,请保持警惕-如果您看看数据科学的世界,您会发现更多来自与数学上瘾的“火箭科学家”相比,具有管理/非数学背景。
误区二:你需要成为一名铁杆程序员才能在数据科学方面表现出色。 越硬核越好。
同样,就像我们在几行前讨论的神话一样,这也是基于对数据科学家工作的错误假设。 人们假设成为一名数据科学家涉及编写代码和算法以及诸如此类的行! 但是,如果您注意我们之前讨论的例程,您会发现其中没有涉及重要的“编码”。 大多数算法或方法都是现成的,只需稍作调整即可。 但是,您需要有逻辑思维才能做到这一点。
使用 Python 开始数据科学误区3:数据科学家不是任何有意义的科学家。
默认情况下,每位科学家都是数据科学家。 纯科学一直与观测数据共存。 如果没有筛选、分类、结构化、分类、理论化和呈现数据的能力,任何科学家都无法为他们的研究带来连贯性。 同样,没有深入研究数据核心的数据科学家也无法有效地展示他们的发现。 统计控制一直是纯科学的基石,现在,它们是数据科学家的基本职责。 因此,如果数据科学家正在观察组织客户行为的趋势和模式,并使用统计数据和真实世界的实验来确认他们的发现,那么他们就是科学家,简单明了。
误区四:数据科学家使用昂贵且复杂的统计工具来完成他们的工作。
从本质上讲,数据科学家的工作要求他们在广泛的数据集中寻找隐藏的趋势和模式。 为此,他们可以使用用户友好的可视化工具、自助搜索驱动的商业智能工具、交互式数据探索工具,甚至是不需要太多统计知识的简单工具。 顺便说一句,世界上的许多业务分析师甚至可以通过对主要电子表格应用程序中的功能进行建模来获得深刻的见解。
误区 5:数据科学就是将数据输入 Hadoop 集群并使用 MapReduce。 简单的!
如果人们在传播神话之前尝试探索,我们就不会在这里。 如果您与数据科学家交谈,您会意识到数据科学和分析远不止 Hadoop 和 MapReduce。 这两个只是众多工具中的两个。 通常,一个成功的数据科学项目会在不同阶段使用一系列工具。 因此,预计数据科学家将掌握该领域发生的任何重大技术进步,以便在需要时适当地切换到任何工具或技术。 谈到数据科学,一只鞋并不适合所有人,也没有神奇的占卜板可以让数据科学精神与我们凡人交谈。
掌握数据科学的主要步骤,相信我,我已经尝试过了我们希望您喜欢开阔您的视野! 坚持我们; 我们会带着更多这样的流言终结者回来。
是博士必须成为数据科学家?
让我们将数据科学家的角色分解为两个方面,以便更好地理解这一点:
1. 应用数据科学角色 - 使用当前算法并了解它们的功能是应用数据科学的主要关注点。 换句话说,就是将这些方法整合到您的项目中。 大多数与数据科学职业相关的人都属于这一类。 大多数职位空缺和职位描述都是这个职位常见的。
2. 研究角色——如果您对研究角色感兴趣,那么您可能需要博士学位。 数据科学中的研究角色包括从头开始创建新算法、研究它们、撰写科学论文等。
人工智能会在不久的将来取代数据科学家吗?
在数据科学的发展过程中,可以说人工智能最终将取代数据科学家手动执行的操作。 但是,计算机无法自行决定是否清理数据、开发有效模型、处理模型正确性等等。 这些选择是由具有必要资格的人做出的。 即使正在尝试开发更先进的算法以希望减少对数据科学家的需求,这也不太可能很快发生。 即使使用最先进的算法,保持公司运转仍然需要具有良好判断力和领域知识的人。
我可以通过掌握数据科学工具成为一名数据科学家吗?
一个普遍的误解是,知道如何使用统计工具和库才能使您有资格成为数据科学家。 使用这些工具将帮助您更好地理解它们,但数据科学是一种结合了多种能力的技能。 了解与之配套的工具只是该过程的一个方面。 除了了解 Python 或 R 等工具外,掌握解决问题的技能、对概念的透彻理解以及有关业务问题所需的正确应用程序的信息也至关重要。