大数据工程师:神话与现实
已发表: 2018-05-07与组织一起呈现的数据每过一分钟都在增加。 这些数据有多种格式、大小和类型,因此极难研究,更不用说有效分析了。 为了解决这个问题,有大数据工程师! 这些人负责将无用的大数据转换为有用的大数据,然后数据科学家可以进一步研究和分析。
大数据工程师可以正确地称为数据科学家和工程师的混合体。 默认情况下处理大数据的任何组织都需要大数据工程师。
通常,大数据工程师的角色需要他们执行以下一项(或多项)技能:
目录
数据分析
- Hadoop、MapReduce、IBM Biginsights、Hortonworks 和 MapR 是大数据工程师应该掌握的一些工具来执行数据分析。 大多数工程师倾向于只使用 MapReduce(因为它是最古老的;而其他的则是相当新的),但底层算法使快速有效地学习新技术变得容易。
- 数据挖掘是数据分析的重要方面之一。 大数据工程师使用 Mahout 等技术来完成与数据挖掘相关的工作。 大数据工程师的首要职责是搜寻数据——甚至在他清理数据之前。 因此,他们需要精通 Mahout 或其他数据挖掘工具。
- 统计分析也起着重要作用,大数据工程师预计对 R、SPSS、SAS 和 MATLAB 等有一定的掌握。
- 大数据工程师是一天结束的工程师。 他们需要精通编程的基础知识。 大多数强大的编程技能只需要用于算法的自定义/专业实现。
数据仓库
- 数据仓库是指将数据提升到仓库。 为此,大数据工程师需要具备 MySQL、MS SQL Server、Oracle 或任何关系数据库的工作知识。 这些工具使著名的大数据工程师能够无缝地处理其组织中存在的关系数据。
- 今天,并非所有数据都是结构化的和相关的。 这些组织的大部分数据都是非关系型的。 因此,对于大数据工程师来说,了解 NoSQL、HBase、HDFS、Cassandra、CouchDB 等非关系数据库的知识也非常方便。
数据采集
- 数据收集是大数据工程师的核心任务之一。 他们需要使用数据 API,例如。 RESTful 接口,用于从数据仓库中获取数据。 为此,他们需要亲自动手使用一些脚本语言。
- 此外,大数据工程师需要成为 SQL 和数据建模方面的专家。 这在收集数据时非常方便。 数据建模使大数据工程师能够清楚地了解数据及其相互依赖关系。
数据转换和清洗
- 收集数据后,现在大数据工程师的主要职责是将其转换为适合数据科学家的格式。 为此提供了各种 ETL 工具,例如 Informatica、DataStage、Redpoint 和 SSIS。 精通这些工具中的任何一种都可以让大数据工程师有效地转换他们之前收集的数据。
- 数据转换后,将清除所有异常和不一致。 这很重要,因为这些数据将由数据科学家进一步分析,他的分析只会与他获得的数据一样好。
大数据工程是一个相对较新的领域,每天都有越来越多的机会。 大数据工程师是我们之前讨论过的技能的大师。 然而,并不是所有的大数据工程师都知道所有这些技能。 每个角色都是不同的,因此有些角色可能需要在其中一个领域中比其他领域更专业的知识。 然而,对于这些技能之一的专家来说,将这些技能转化为其他领域通常不会太具有挑战性。 现在,关于大数据工程师的职责和任务,我们在同一页面上。

让我们更进一步,打破一些关于他们的生活、工作和资格的流行神话:
误区 1:数据科学家和大数据工程师的日常工作没有太大区别。
如果你一直在关注我们的系列,你会知道得更多。 数据科学家是在数据中寻找趋势、意义和模式并尝试制定可操作的见解以改善组织运作的人。 另一方面,大数据工程师显然是在分析数据之前处理数据。 他负责清理数据并将其以尽可能原始的形式呈现给数据科学家。

误区二:大数据工程师比数据科学家更有价值(反之亦然)。
这两种工作角色对组织的运作都有其自身的重要性。 如果没有高效的大数据工程师,数据科学家将很难提供好的结果。 同样,如果没有专家数据科学家,组织将永远不知道如何处理他们的数据。 因此,我们不能根据它们的重要性对这些工作角色进行排序,因为归根结底,这两个配置文件构成了任何成功的数据科学团队的支柱。
流行文化中的大数据应用误区 3:大数据工程师只在大型企业中才需要。
正如我们之前所说,如果您的组织处理大数据,您需要一名大数据工程师。 今天,任何组织,无论大小,都拥有数 TB 的客户数据。 没有一家公司,无论其领域如何,都无法通过了解其大数据来改进其功能。 随着围绕大数据的工具和技术变得更便宜和更容易获得,越来越多的中小企业正在走大数据路线并任命大数据工程师和科学家来帮助他们保持领先地位。

误区四:大数据工程师需要成为专家级程序员。
除了核心编程之外,大数据工程师还需要成为管理数据的专家。 通常,您会发现大数据工程师使用适合他们情况的库或框架。 这些都是现成的,可以完成大部分繁重的编程。 仍然建议大数据工程师对编程的基本原理有清晰的了解。 这将帮助他们根据特定的用例调整/修改任何算法/框架/库。 此外,必须具备一些脚本语言知识,因为这些大数据工程师负责从仓库中获取数据并对其进行清理,这需要编写脚本。
误区五:只有科技公司才需要大数据工程师
今天,组织将数据用于一切,包括更好地定位客户。 对其客户数据的详细了解使任何组织都可以制定成功的营销活动。 技术和非技术组织都需要大数据工程师。 如果能够访问正确的数据,几乎任何组织都可以在工作中变得更好、更有效率。
大数据:必须了解的工具和技术
包起来
至此,我们今天的神话终结者就结束了。 请继续关注,我们会带着更多这样的流言终结者回来。 如果您遇到更多需要打破的神话,请告诉我们!
如果您有兴趣了解有关大数据的更多信息,请查看我们的 PG 大数据软件开发专业文凭课程,该课程专为在职专业人士设计,提供 7 多个案例研究和项目,涵盖 14 种编程语言和工具,实用的动手操作研讨会,超过 400 小时的严格学习和顶级公司的就业帮助。
从世界顶级大学在线学习软件开发课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
