大数据的特征:类型和 5V
已发表: 2020-05-06目录
介绍
周围的世界正在迅速变化,我们现在生活在一个数据驱动的时代。 数据无处不在,从您的社交媒体评论、帖子和喜欢到您每天访问的电子商务网站上的订单和购买数据。 搜索引擎使用您的搜索数据来增强您的搜索结果。 对于大型组织,这些数据的形式包括客户数据、销售数据、财务数据等等。
你可以想象每秒产生多少数据! 大量的数据被称为大数据。
让我们从大数据的基本概念开始。
什么是大数据?
大数据是指结构化和非结构化的大量数据集合。 这些数据可能来自服务器、客户资料信息、订单和购买数据、金融交易、分类账、搜索历史和员工记录。 在大公司中,这种数据收集随着时间的推移而不断增长。
但公司拥有的数据量并不重要,重要的是它如何处理这些数据。 公司的目标是正确分析这些庞大的数据集合以获得洞察力。 分析有助于他们理解数据中的模式,最终导致更好的业务决策。
所有这些都有助于减少时间、精力和成本。 但是,使用传统的数据分析方法无法存储、处理和研究如此庞大的数据量。 因此,公司聘请编写程序和开发现代工具的数据分析师和数据科学家。 详细了解需要培养的大数据技能。

大数据的类型
大数据以三种基本形式存在。 他们是 -
1.结构化数据
顾名思义,这种数据是结构化的并且定义明确。 它具有一致的顺序,可以很容易地被计算机或人类理解。 可以使用固定格式存储、分析和处理这些数据。 通常,这种数据有自己的数据模型。
您会在数据库中找到此类数据,这些数据整齐地存储在列和行中。 结构化数据的两个来源是:
- 机器生成的数据——这些数据由传感器、网络服务器、博客、GPS 等机器生成。
- 人工生成的数据——这类数据由用户在其系统中输入,例如个人详细信息、密码、文档等。用户进行的搜索、在线浏览的项目和玩过的游戏都是人工生成的信息。
例如,包含公司员工所有详细信息的数据库是一种结构化数据集。
2. 非结构化数据
任何非结构化或未明确定义的数据集都称为非结构化数据。 这种数据是无组织的,难以处理、理解和分析。 它不遵循一致的格式,并且可能在不同的时间点有所不同。 您遇到的大多数数据都属于此类别。
例如,非结构化数据是您在社交媒体上的评论、推文、分享、帖子和点赞。 你在 YouTube 上观看的视频和通过 WhatsApp 发送的短信都堆积成一大堆非结构化数据。
3. 半结构化数据
这种数据有些结构化,但并不完整。 起初这似乎是非结构化的,并且不遵循数据模型(如 RDBMS)的任何正式结构。 例如,NoSQL 文档具有用于处理文档的关键字。

CSV 文件也被视为半结构化数据。
在学习了基础知识之后,现在让我们了解大数据的特点。
阅读:为什么要成为大数据开发人员?
大数据的特征
大数据的主要特征是——
1. 音量
容量是指大型组织每秒收集和生成的大量数据。 这些数据来自不同的来源,例如物联网设备、社交媒体、视频、金融交易和客户日志。
存储和处理如此大量的数据在早期是一个问题。 但现在分布式系统(如Hadoop )用于组织从所有这些来源收集的数据。 数据的大小对于理解其价值至关重要。 此外,卷对于确定数据集合是否是大数据很有用。
数据量可能会有所不同。 例如,文本文件为几千字节,而视频文件为几兆字节。
另请阅读:大数据和 Hadoop 之间的区别
2. 品种
另一个最重要的大数据特征是它的多样性。 它指的是不同的数据来源及其性质。 多年来,数据来源发生了变化。 早些时候,它仅在电子表格和数据库中可用。 如今,数据存在于照片、音频文件、视频、文本文件和 PDF 中。
数据的多样性对其存储和分析至关重要。
3.速度
该术语是指创建或生成数据的速度。 这种数据产生的速度也与处理这些数据的速度有关。 这是因为只有经过分析和处理,数据才能满足客户/用户的需求。
传感器、社交媒体网站和应用程序日志产生了大量数据,而且所有这些数据都是连续的。 如果数据流不连续,那么在其上投入时间或精力是没有意义的。
4. 价值
在大数据的特征中,价值也许是最重要的。 无论数据的生成速度或数量有多快,它都必须可靠且有用。 否则,数据不足以进行处理或分析。 研究表明,质量差的数据可能导致公司收入损失近 20%。

数据科学家首先将原始数据转换为信息。 然后清理这个数据集以检索最有用的数据。 分析和模式识别是在这个数据集上完成的。 如果该过程成功,则可以认为数据是有价值的。
5. 真实性
大数据的这一特性与前一个特性相连。 它定义了数据的可信度。 由于您遇到的大多数数据都是非结构化的,因此过滤掉不必要的信息并将其余信息用于处理非常重要。
结论
大数据是商业、营销、销售、分析和研究等主要领域背后的驱动力。 它改变了全球以客户和产品为基础的公司的业务战略。 因此,在分析和决策制定时,必须对所有大数据特征给予同等重视。
如果您有兴趣了解有关大数据的更多信息,请查看我们的 PG 大数据软件开发专业文凭课程,该课程专为在职专业人士设计,提供 7 多个案例研究和项目,涵盖 14 种编程语言和工具,实用的动手操作研讨会,超过 400 小时的严格学习和顶级公司的就业帮助。
从世界顶级大学在线学习软件开发课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。