数据仓库架构:你需要知道的一切
已发表: 2020-04-30在这个以数据为中心的世界中,我们每个人迟早都会产生每秒 1.7 MB 的数据也就不足为奇了。 但是所有这些数据会去哪里呢? 不应该有一个存储单元来安全地保存所有这些信息,以便在需要时可以恢复它吗?
如果我们告诉你有这样的存储单元怎么办? 毫不奇怪,它被称为数据仓库。 它是一种分析工具,包含来自运营来源的数据和信息,旨在帮助决策和报告。
如今,全球数据仓库市场已经上升到预计未来几年将以16% 的复合年增长率增长的程度。
因此,让我们深入了解数据仓库及其架构。
了解更多:什么是数据仓库和数据挖掘
目录
什么是数据仓库?
保存来自一个或多个来源的所有过去和交换数据的地方称为数据仓库。 拥有数据仓库的主要目的是平滑企业的商业智能和报告流程。 它本质上是对其存储的数据进行查询和分析。
由于数据仓库拥有来自多个来源的交易数据,它可以帮助企业:
- 保留旧记录
- 评估现有数据并找出运营中的漏洞
设计数据仓库的业务分析框架
通常,数据分析师会从仓库中收集相关数据并对其进行分析,以帮助企业改善运营。 使用数据仓库会派上用场,因为它有助于快速有效地访问数据,从而提高整体生产力。
此外,您可以全面了解客户和所有产品。 这样,您可以确保顺畅的客户关系。
但要让这一切发生,数据分析师需要首先了解业务需求。 为此,他们需要创建一个业务分析框架。
只有在构建了业务分析框架之后,我们才能继续设计数据仓库。 对此有三种看法:
- 自上而下视图:在此视图中,您可以看到设计仓库所需的相关信息。
- 数据源视图:显示捕获、存储和管理的数据。
- 数据仓库视图:列出仓库中的事实表、维度表和数据。
- 业务查询视图:在此,您可以从最终用户的角度查看数据。
一旦您从所有这些观点查看了数据,就该继续学习这三种类型的数据仓库架构了。
三种类型的数据仓库架构
每次您计划为公司设计数据仓库时,您都可以考虑构建数据仓库的路线图以及以下三层架构。
- 单层:这主要负责生成封闭的数据包集并减少其总体积。 但是,对于具有复杂数据和多个数据流的企业,不建议使用此类型。
- 两层:在这种类型的架构中,数据源被拆分,从而使数据组织和存储过程更加高效。
- 三层:这种类型的仓库架构是最受欢迎的类型,因为它从原始数据中提供了非常有价值的见解,从而产生了有组织的数据流。
它由以下三层组成:
- 底层,包含仓库的服务器。 在这里,使用后端工具清理和加载数据。
- 中间层由 OLAP 服务器组成。 该层为用户提供数据库的抽象视图,充当最终用户和数据库之间的连接。
- 顶层具有用于从仓库中提取数据的API 和工具(查询、数据挖掘、分析和报告工具)。
数据仓库架构的组件
为了使架构的功能易于管理,仓库包含一个 RDBMS 服务器,由五个主要组件包围。
以下是数据仓库架构的五个主要组成部分。
数据仓库数据库
仓库架构的核心部分是一个包含所有业务信息的数据库,这些信息使报告易于理解。 显然,这意味着您必须选择要使用哪种类型的数据库才能将数据存储在您的仓库中。
接下来是您可以使用的四种数据库类型:
- 关系数据库是您通常每天都会遇到或使用的基于行的数据库。 其中包括 Microsoft SQL Server、SAP、Oracle 和 IBM DB2。
- 分析数据库是为信息储存而果断创建的,以支持和监督分析。 例如,Teradata 和 Greenplum。
- 数据仓库应用程序实际上并不是一种容量数据库。 它们是提供数据管理软件的应用程序,例如 SAP Hana、Oracle Exadata 和 IBM Netezza。
- 基于云的数据库是可以在云上促进和恢复的数据库,目标是您无需购买任何硬件来设置数据仓库。 例如,Amazon Redshift、Microsoft Azure SQL 和 Google BigQuery。
如果您有兴趣了解有关数据科学的更多信息,请查看我们来自顶尖大学的数据科学培训。
提取、转换和加载工具 (ETL)
ETL 设备是数据仓库架构的基础。 这些有助于从各种来源中分离信息,将其更改为合理的排列,并将其堆叠到仓库中。
您选择的 ETL 工具将决定:
- 信息提取耗时
- 提取数据的方法
- 应用的更改类型以及为此需要付出的努力
- 用于信息验证和清理以改进最终产品分析的业务规则定义
- 填写丢失的信息
- 绘制从密钥保险箱到 BI 应用程序的数据循环
元数据
元数据描述了数据仓库并提供了一个信息系统。 它有助于开发、保护、处理和利用仓库。 它有两种类型:
- 技术元数据:它包括工程师和经理在执行仓库开发和组织任务时可以使用的数据。
- 业务元数据:它包括为仓库中的数据提供有效合理立场的数据。
元数据在组织理解仓库中存在的数据并将其转换为可用信息方面发挥着重要作用。
数据仓库访问工具
数据仓库使用一个数据库或一组数据库作为设施。 在大多数情况下,企业无法合法地使用数据库。 这就是他们使用多种工具的原因,包括:
- 查询和报告工具:这些工具可帮助用户在电子表格、计算或智能视觉中创建公司报告,以进行深入分析。
- OLAP 设备:这些设备有助于开发多维数据仓库并从各个角度对大数据进行分析。
- 数据挖掘工具:这些工具系统化了识别大量数据中的集群和连接的方法,利用统计建模策略。 了解有关数据挖掘技术的更多信息。
- 应用程序开发工具:这些工具有助于制作定制报告并以翻译形式呈现,预期用于特定报告目的。
数据仓库总线
它有助于决定数据在仓库中的进展。 这个流可以被安排为流入、上行、下行、流出和元流。

在设计数据总线时,您需要考虑跨数据集市的通用度量和事实。
数据集市
这是一个入口层,用于将信息传递给用户。 它是作为大型数据仓库的一种可能性引入的,因为它只需要很少的时间和金钱来创建。 无论如何,数据集市没有标准含义,因为它因人而异。
简单来说,数据集市是数据仓库的辅助,用于分割信息,是为特定的用户群制作的。
数据仓库架构的层次
构建数据仓库主要取决于特定的业务。 因此,每个架构都有四层。 让我们在下面详细研究它们。
数据源层
数据源层是从各种内部和外部来源收集的唯一信息驻留在社交数据库中的地方。 以下是数据源层的示例:
- 运营数据——产品信息、库存信息、营销信息或人力资源信息
- 社交媒体数据——网站点击量、内容名声、联系页面完成
- 局外人数据——人口统计信息、学习信息、统计信息
虽然大多数数据仓库管理有组织的数据,但应该考虑未来对非结构化数据源的利用,例如语音帐户、扫描的图片和非结构化文本。 这些海量的数据是重要的信息仓库,在建立仓库时应该查看。
数据暂存层
该层位于信息源和数据仓库之间。 在这一层中,信息与各种内部和外部数据源分离。 由于源数据来自各种组织,因此数据提取层将使用多种技术和设备来提取必要的信息。
一旦提取的数据被堆叠起来,它将接受高级质量检查。 最终结果将是您将堆叠到数据仓库中的完美且有组织的数据。 暂存层包含给定的部分:
- 登陆数据库和暂存区
登陆数据库存储从数据源恢复的信息。 在数据进入仓库之前,暂存过程会对其进行严格的质量检查。 安排是建筑的基本步骤。 糟糕的信息会导致数据不足,结果是糟糕的业务动态。 编排层是您需要根据业务流程进行更改以处理非结构化信息源的地方。
- 数据集成工具
提取、转换和加载工具 (ETL) 是用于从源框架中提取信息、更改和准备信息并将其加载到仓库中的数据工具。
阅读:印度数据科学家的薪水
数据存储层
这一层是整理区中被冲走的数据作为单独的中央档案存放的地方。 根据您的业务和仓库架构的需求,您的数据存储可能是数据仓库中心、数据集市(为特定部门重新创建的数据仓库)或运营数据存储 (ODS)。
数据表示层
这是用户与清理和整理的数据进行通信的地方。 数据架构的这一层使用户能够查询数据以获得项目或服务洞察力,分解数据以进行理论业务情况,并创建计算机化或专门指定的报告。
您可以使用具有易于理解的图形用户界面 (GUI) 的 OLAP 或报告工具来帮助用户构建他们的查询、执行分析或计划他们的报告。
数据仓库的特点
数据仓库是面向主题的、非易失性的、随时间变化的,并且是一组集成的数据,可以为组织提供快速有效的决策过程。
- 面向主题:数据仓库可用于检查特定的知识分支。 例如,“销售”可以是一个特定的主题。
- 集成:数据仓库包含来自不同来源的信息。 例如,来源 A 和来源 B 可能有多种区分物品的方法,但是,在仓库中,识别物品的方法只有一种。
- 时变:一个仓库包含历史数据。 例如,可以从数据仓库中恢复 3 个月、半年、一年或更早的信息中的信息。 这与只存储最新信息的事务框架不同。 例如,事务框架可以保存客户端的最新位置,而数据仓库可以保存与客户端相关的所有位置。
- 非易失性:数据仓库的最佳特性之一是数据一旦存储在其中,就不可能改变。 因此,仓库中记录的信息永远不会被修改。
如何使用数据仓库架构?
在寻找洞察力时,建立您的企业或企业需要哪种类型的数据库以及您打算如何与之协作至关重要。 在考虑数据仓库设计时,评估谁将检查信息以及他们需要什么来源同样至关重要。
尽管数据仓库与数据集市的玩笑并不总是与较小的组织相关,但那些拥有更多组、部门和明确需求的组织可能会从数据集市中受益。 数据集市的特定主题性质使其成为数据仓库架构的重要组成部分。
此外,根据您组织的规模,各种仓库设计可能会越来越实用。 了解哪个最好取决于您的数据、集合的大小和您的业务需求。
结论
数据仓库是一种数据科学框架,包含来自单一或各种来源的真实和可交换信息。 这是访问新旧数据、从中获得洞察力并通过分析现有数据改进业务流程的绝佳方式。
此外,数据仓库的概念是面向主题的,因为它提供与主题相关的数据,而不是协会正在进行的活动。 在仓库中,合并意味着为来自各种数据库的每个可比数据建立一个典型的度量单位。 如前所述,它也是非易失性的,这意味着在输入新信息时不会删除过去的信息。
数据仓库的时变特性允许高时间范围的实际可用性。
数据仓库有五个基本部分。 1) 数据库 2) ETL 工具 3) 元数据 4) 查询工具 5) 数据集市
查询工具的四个基本类别是查询和报告工具、应用程序开发工具、数据挖掘设备和 OLAP 工具。
信息源、变更和重新定位工具用于播放所有转换和大纲。
在数据仓库架构中,元标记承担着一项重要的工作,因为它指示数据仓库中数据的来源、用途、质量和亮点。
我们希望本文中的信息能够帮助您了解数据仓库架构的基础知识。 如需更多信息,请联系 upGrad 的专家。 只需给我们发送电子邮件,我们就会回复您以帮助您解决问题。
如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划,该计划是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1与行业导师一对一,400 多个小时的学习和顶级公司的工作协助。
数据仓库的架构是什么?
定义数据通信处理的整个架构以及为最终客户端存在的表示的方法是数据仓库架构。 每个数据仓库都是不同的,每个数据仓库都基于标准的重要组件进行表征。
简而言之,数据仓库是一个信息系统,由来自单个或多个来源的交换和历史数据组成。 借助不同的数据仓库概念,可以简化组织中数据的报告和分析过程。 构建数据仓库架构有不同的方法。 根据组织的要求使用任何方法。
数据仓库架构师的平均收入是多少?
数据仓库架构师是一个非常抢手的工作角色,您可以期待出色的薪酬待遇。 平均而言,数据仓库架构师的薪水为卢比。 每年13,00,000。 即使你是在这个领域开始你的职业生涯,你也可以期待 Rs 的入门级薪水。 每年10,00,000。 当您获得更多经验并提升阶梯时,薪水可以高达卢比。 每年22,00,000。
毫无疑问,薪资待遇甚至取决于您加入的公司、经验水平,最重要的是地理位置。
数据仓库架构的正确流程是什么?
在每个操作数据库上,都必须应用一定数量的固定操作。 有不同的定义明确的技术来提供合适的解决方案。 当完全遵循数据仓库架构的正确流程时,发现数据仓库更有效。
构成数据仓库的四个不同过程是提取和加载数据、清理和转换数据、备份和归档数据,以及通过将它们引导到适当的数据源来执行查询管理过程。