初学者大数据教程:所有你需要知道的
已发表: 2018-05-22大数据作为一个概念,几乎在所有关于数字创新、物联网 (IoT) 和数据科学研究的对话中都被提及。 但是,对于这个术语的确切含义仍然存在一些混淆。 在本大数据教程中,我们旨在阐明您在开始使用大数据之前需要了解的所有内容。
简而言之,大数据是对来自多个来源的大量不同数据的收集、分析和处理。 这些大型数据集可以提供对人类行为的洞察,并为商业实践、战略、产品设计、人工智能等提供信息。 在本大数据教程中,我们将向您介绍流行语的关键概念和术语。
观看 YouTube 视频
我们希望在本教程结束时,您将有足够的想法来迈出大数据之旅的第一步。 但是,在我们继续大数据教程之前,让我们看看小数据和大数据之间的区别。
小数据与大数据
通过与小数据的比较,很容易理解大数据的范围。 小数据是可以由单台机器或使用传统分析方法管理的信息。 这些数据的来源和影响规模较小。 例如,生产日志可用于开发生产线生产率的每周绩效报告; 或调查结果可用于有关品牌认知度的营销报告。

要了解这两种数据之间的明显区别,我们要做的就是查看一些统计数据——到 2020 年,地球上的每个人每秒将产生 1.7MB 的数据,这些数据来自超过 500 亿台连接到互联网的设备。 来自几乎相同来源的如此大量数据可用于为整个行业的业务决策提供信息,重组电子商务网站,甚至彻底改变医疗保健服务。
大数据:必须了解的工具和技术现在您已经大致了解了大数据是什么,让我们更深入地了解本大数据教程并讨论核心概念。
目录
大数据特征
您如何处理如此大规模的异构数据,而传统的分析方法肯定会失败? 这一直是大数据科学家面临的最重大挑战之一。 为了简化答案,Gartner 的主要分析师 Doug Laney 提出了定义“大数据”的三个基本概念。
体积
这是大数据系统的主要区别。 我们每个人都有一个数字足迹,可以从我们的每个设备收集的数据集的数量令人难以置信。 以 Facebook 为例——截至 2016 年,社交网络平台上有 2.6 万亿个帖子。 Twitter 每天登录 5 亿条推文。 将此添加到与之连接的所有其他数字设备中,很容易理解地球上的每个人是如何平均每天生成 0.77 GB 数据的。
速度
目前可用的数据中有 90% 是在过去两年中生成的。 每天生成 2.5 万亿字节的数据,这些数据预计将被实时(或接近实时)处理,以产生在不断变化的世界中不会变得多余的洞察力。 这就是为什么大数据分析师已经摆脱了传统的面向批处理的方法,并采用实时分析来确保他们生成与当前情况相关的信息。
种类
使大数据系统与企业和社区如此相关的原因在于,它们是独特的数据集,因为它们来自不同的来源,并使用不同的方法进行处理。 数据可以来自社交媒体源、Fitbit 等物理设备、家庭安全系统、汽车 GPS 系统等。 数据本身非常多样化——它可以是富媒体(照片、视频、音频),也可以是结构化日志和非结构化数据。 大数据的独特之处在于它整合了所有这些信息,无论其来源如何,以提供每个用户的全面数据集。

自 2001 年以来,三个 V 一直被用来区分大数据,但最新的叙述倾向于在此列表中添加“真实性、可视化、可变性和价值”,这进一步扩大了大数据分析的范围。
那就是关于大数据的特征,接下来在这个大数据教程中,让我们谈谈如何使这些数据变得可行并从中获得洞察力。
流行文化中的大数据应用如何理解大数据?
大数据的独特之处在于可以得出的各种见解。 这通常无法通过传统方法完成,因为许多见解、趋势和模式通常并不明显。 此外,小数据分析技术不适合通过大数据方法生成的大量和多样化的内容。
为了克服这些障碍,已经开发了各种新技术——最流行的是 Apache Hadoop。 这些技术利用集群计算将信息摄取到数据系统中,并计算和分析数据,并可视化数据流。
大数据在任何可以想象的领域都占有一席之地,不谈论大数据正在创造的奇迹是错误的。

观看 YouTube 视频
让我们通过讨论大数据的应用来结束这个大数据教程:
大数据的应用
- 个人发展:在更个人的层面上,大数据被用于优化个人健康。 臂章和智能手表使用关于睡眠周期、卡路里消耗、活动水平等的数据来开发关于改善用户健康的见解——这些数据以个性化的方式反馈给个人用户。
- 广告:营销公司正在利用各种数据点,包括 GPS、交通模式、眼动跟踪等来确定人们对哪些广告更感兴趣,从而确定更准确的营销策略。 这是对传统营销策略的突破,在传统营销策略中,定价是广告的“每次印象”。
- 供应链优化:大数据在配送路线优化中发挥着重要作用(亚马逊和 eBay 等公司非常关注),其中使用射频识别器和 GPS 系统跟踪实时交通数据、驾驶员行为等,以识别正确的路线,取决于一天和一年中的时间。
- 天气预报:手机上的应用程序被用于实时众包有关天气模式的信息。 通过结合使用环境温度计、气压计和湿度计,这些应用程序可以为预测模型生成准确的实时数据,从而大大提高天气预报系统的准确性。
- 建设智慧城市基础设施:城市正在试行大数据分析系统以开发智慧城市基础设施。 干旱的加州使用大数据分析来跟踪消费者的用水量,帮助减少了 80% 的用水量。 洛杉矶通过监测城市周围的交通信号,将交通拥堵减少了 16%。
随着时间的流逝,大数据只会变得越来越大,并且正在加强对每个领域的控制。 我们希望这个大数据教程能够帮助您理解“大数据”这个词背后的炒作。 如果您有兴趣深入研究,有许多大数据教程、课程和认证可以帮助您顺利进行。
不要再等了,让这个大数据教程成为你驯服大数据野兽所需的火花。
如果您有兴趣了解有关大数据的更多信息,请查看我们的 PG 大数据软件开发专业文凭课程,该课程专为在职专业人士设计,提供 7 多个案例研究和项目,涵盖 14 种编程语言和工具,实用的动手操作研讨会,超过 400 小时的严格学习和顶级公司的就业帮助。
从世界顶级大学在线学习软件开发课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
