数据仓库的关键概念:概述
已发表: 2018-03-20在过去的几十年里,基于云的技术发生了一场革命。 这些技术使组织能够无缝地存储和检索有关其客户、产品和员工的数据。 然后,这些数据可用于收集可操作的见解并使组织更上一层楼。
虽然大数据和分析处理在检索数据后对数据执行的操作,但数据仓库的概念侧重于数据如何存储在云中。 许多全球组织已经采用数据仓库的概念来组织从世界各地的运营中心和公司分支机构流出的数据。
直到大数据热潮发生之前,数据仓库的概念才出现。 在此之前,所有组织都使用 OLTP(操作数据库),它适用于管理、跟踪和分析日常活动,但在处理可能跨越 TB 大小的历史数据集时却惨遭失败。 OLTP 系统只是一个在实体-关系上工作的关系数据库模型。 尽管仍在使用,但由于当今组织的数据量巨大,OLTP 正在慢慢消失。
输入:数据仓库!
目录
什么是数据仓库?
数据仓库的概念允许组织收集、存储和交付决策支持数据。 数据仓库的概念很广泛,数据仓库是在仓库过程中创建的工件之一。
“数据仓库”一词是由 William (Bill) H. Inmon 在 1990 年创造的。根据 Inmon 的说法,数据仓库只是一个面向主题的、集成的、时变的、非易失性的数据集合,以支持管理层的决策——制作过程。
谁是数据科学家、数据分析师和数据工程师?
我们之前谈到的 OLTP 经常发生变化(几乎每天)。 由于缺乏历史数据,业务主管无法分析以前的产品反馈或投诉。
另一方面,数据仓库在多维视图中提供整合的数据。 它还提供 OLAP(在线分析处理)工具——当您开始分析您存储的数据时,这些工具非常有用。 与 OLTP 不同,数据仓库还支持数据挖掘、分类、聚类和预测分析等操作。 由于所有这些原因以及更多原因,数据仓库的概念已成为任何组织不可或缺的一部分。
什么不是数据仓库?
对数据仓库概念相对较新的人经常将“数据仓库”与“数据库”混淆。 然而,在我们进一步讨论之前,让我们先澄清这一点——数据仓库不仅仅是一个数据库,而且还不止于此。 它包括从多个数据源收集的运营数据副本,可在战略决策期间派上用场。
有些人还认为数据仓库只包含历史数据。 然而,事实远非如此。 数据仓库可以包含历史数据,也可以包含分析和报告数据。 但是,在数据存储中管理的事务数据并不存储在仓库中。 使用数据仓库的目的是分析历史数据并无缝获得可行的见解。
辛普森悖论到底是什么? 它如何影响数据?
数据仓库的重要性
到目前为止,我们在数据仓库的概念、对它的需求方面达成了一致,并看到了数据仓库和 OLTP 之间的显着差异。 现在,让我们看看数据仓库概念的重要性:
确保数据一致性
数据仓库存储来自各种来源的数据,这些数据有多种格式。 因此,它们被编程为应用 ETL 方法以确保数据整体一致。 一致性使数据仓库成为企业决策者分析数据并与全球同事共享数据见解的完美工具。 标准化和格式化数据还可以降低数据分析时出错的风险; 从而提供整体更好的准确性。
促进更好的决策
“首先是数据,然后是理论。” 数据仓库允许组织轻松存储和检索数据,从而确保围绕该数据制定更好的理论和策略。 数据仓库在访问不同数据集方面也快得多,并且更容易获得可操作的见解。

提高他们的底线
数据仓库允许利益相关者深入了解他们的历史数据,从而有助于改善任何组织的整体运营。 这最终使企业领导者能够快速跟踪其组织过去的活动并评估成功(或不成功)的战略。 这让高管们可以看到他们可以在哪里调整他们的方法来降低成本、最大限度地提高效率并增加销售额以提高他们的底线。
数据仓库概念中和周围的一些关键术语:
元数据
元数据本质上只是关于数据的数据。 例如,如果我们谈论一本书,它的索引可以作为该书内容的元数据。 换句话说,元数据可以理解为对完整数据的总结。
在数据仓库方面,我们可以将元数据定义为 -
- 数据仓库的路线图。
- 帮助决策支持系统定位数据仓库内容的目录。
数据立方体
数据立方体由维度和事实定义,帮助我们在多个维度上表示数据。 维度只不过是组织保存记录的实体。 它主要用于存储用于报告目的的数据。 多维数据集的每个维度代表数据库的某个特征,例如,每日、每月或每年的销售额。 数据立方体中包含的数据可以分析几乎所有客户、销售代理、产品等的几乎所有数据。 因此,数据立方体可以理想地帮助建立趋势和分析性能。
获得世界顶尖大学的数据科学认证。 加入我们的行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
数据库
数据集市可以理解为为组织的特定部分服务而构建的数据存储库。 数据集市包含对特定人群有价值的整个组织数据的一个子集。 例如,专门为营销团队设计的数据集市可能只包含与项目、客户和销售相关的数据。 数据集市仅限于相关主题。
数据仓库以及重要的术语和技术。 如果您觉得它有趣,我们建议您通过摆弄数据挖掘、数据分析等概念来深入阅读该主题。 路漫漫其修远兮,数据仓库只是起点。
如果您有任何疑问或问题,请在下面的评论中告诉我们!
为什么公司应该利用数据仓库?
现代数据仓库系统简化了设计、构建和部署数据仓库的耗时任务,以满足快速变化的公司需求。 因此,许多公司使用数据仓库解决方案来获取信息。 改进的数据分析、更高的收入以及在市场上更具战略性竞争的能力都是拥有数据仓库的优势。 数据仓库工具利用各种相关技术,例如结构化和非结构化数据、ETL 软件和数据挖掘,来实现这些好处。
数据仓库的一些主要优势包括:
1.允许历史洞察力
2. 提高数据质量和一致性
3. 提高生产力
4. 数据分析可以变得更强大和更快
5. 增加收入
6. 与本地和基于云的系统交互
什么是最好的数据仓库工具?
如今,许多企业都依赖数据仓库工具。 选择正确的解决方案来管理和维护数据仓库,以及找到一个完全适合业务目标和限制的解决方案可能很困难。
以下是企业可能用来从其数据仓库中提取有用数据的一些数据仓库工具的概述:
1. Amazon Redshift:Amazon Redshift 是一种数据仓库工具,可以使用现有的商业智能工具使用简单的 SQL 查询来检查数据。 它使用高性能计算、并行执行、统一查询优化和列存储来运行复杂的分析查询。 默认情况下,Amazon Redshift 对其静态数据进行加密。
2. Google BigQuery:Google BigQuery 是一种无服务器、经济高效且高度可扩展的数据仓库工具,包括机器学习并利用商业智能引擎。 它使用 ANSI SQL 语言快速分析 PB 级数据,通过灵活的架构提供跨云数据的洞察和解决方案,并以经济高效的方式存储和查询海量数据集。
3. Microsoft Azure:Microsoft Azure 是一种数据仓库工具,它结合了 200 多种产品和云服务,有助于设计、运行和管理跨不同云网络的高度可扩展的应用程序。 它有助于在各种云和混合环境中部署 Windows 和 Linux 虚拟机。