简报:数据仓库

已发表: 2022-03-11

公司和消费者正在生成比以往更多的数据。 数字设备和产品的激增正在推动数字世界的指数级扩张。 虽然名义上是一种资产,但这些数据的规模提出了一个挑战:公司如何实际组织他们的信息以揭示可操作的见解?

虽然数据挖掘和商业智能为此类洞察提供了有价值的提取和呈现,但数据仓库 (DWH) 是对通常位于多个位置的大量基础数据进行的预备聚合和重组。 了解 DWH 在更广泛的数据科学、数据挖掘和商业智能生态系统中的作用对于现代管理者来说至关重要。

什么是数据仓库?

DWH 是一个集中的数字信息存储库,从各种不同的来源聚合而成,并以针对报告进行优化的结构进行组织。 最重要的是,DWH 为整个企业提供了可操作的信息,使员工能够执行量身定制的分析并做出更好的决策。

基本数据仓库概念

关系与维度模型

要了解数据仓库的功能,了解关系模型和维度模型之间的区别很重要。 虽然听起来很技术,但它们很容易区分。

从实际使用的角度来看,关系数据库和维度数据库在一个关键标准上有所不同:信息流。 虽然关系数据库针对数据输入进行了优化,但维度数据库是针对输出构建的,特别是以报告和分析的形式(称为商业智能)。

关系模型围绕单个信息点组织信息,例如客户名称。 在这样的模型中,客户名称存在于一个位置,所有相关信息(例如联系方式和交易日期)都列在相关或相关表中。

相比之下,维度数据库本质上是对关系数据库的“解包”,使用户可以轻松地按照满足其报告需求所需的排列方式对数据进行“切片和切块”。 例如,在上面的关系数据库条目中,客户联系方式将被分解为离散字段,例如电话号码、街道地址、城市、州和邮政编码。

维度数据库本质上是对关系数据库的“解包”,允许用户轻松“切片”数据

关系数据库和维度数据库之间的区别可能看起来很抽象。 然而,对于那些负责提供越来越复杂的分析和报告的人来说,欣赏这种区别为与维护这些资源的技术团队合作提供了宝贵的基础理解。

数据仓库——“开启”

正如数据仓库的创建者之一 Bill Inmon 所详述的,一些特定的特征支配着数据仓库的设计。 根据 Inmon 的说法,数据仓库是一个面向主题的、非易失性的、集成的、时变的数据集合,以支持管理层的决策。

这很拗口,但一旦分解成几部分,这个定义就清楚地描绘了 DWH 基本结构。 为了使这些标准易于记忆,我们根据字谜“It's On”重新组织了 Inmon 的标准

集成:数据必须具有一致的格式。 通常来自不同来源的数据字段必须具有一致的命名约定。

时间变量: DWH 揭示趋势,这取决于随时间的变化。 随着时间的推移记录数据点是揭示数据之间关系的基础。

面向主题: DWH 支持以主题为中心的分析和报告。 例如,一家公司可能希望随着时间的推移评估产品的销售情况,然后深入了解区域或客户细分市场的特定趋势。

非易失性:数据一旦进入仓库,就不会改变。

数据仓库不同于事务数据库

DWH 和事务数据库系统执行根本不同的功能,并为不同的用户服务。 虽然 DWH 针对报告和分析进行了优化,但事务系统(通常称为在线事务处理 (OLTP))针对可用性和处理速度进行了优化。

OLTP 用户通常是前端员工,他们通常一次访问多条记录。 DWH 用户通常是分析师和经理,他们的报告可能同时调用多达数百万条记录。

交易系统和 DWH 在数据粒度和持久性上也有所不同。 在 OLTP 中,数据包含当前值,这些值是详细且高度可变的(每隔几秒,成千上万的事务就会更改这些记录的值)。 相比之下,DWH 包含重组后的数据,一旦加载就无法更改。

消费贷款流程简明扼要地说明了这些系统之间的主要区别。 例如,当客户获得汽车贷款时,交易数据库会捕获诸如汽车类型、颜色、购买年份、购买价格和买家个人详细信息等详细信息。 一旦转换为 DWH 模型,交易信息(围绕单个客户交易)被分解为组成部分。 反过来,这些部分与其他交易的可比部分合并。

查询 DWH,贷方的员工可能会访问由汇总的客户数据组成的报告。 例如,为了优化广告支出,营销经理可能会寻找具有最高贷款批准率或贷款申请人平均年龄和收入水平的给定类型或价格范围的汽车。 此类信息可能会将重新定向的广告支出引导到具有更有针对性的消息传递的更相关的渠道。

数据仓库与数据集市和数据湖

DWH 可能伴随着相关的数据库——数据集市和数据湖——它们的描述性名称暗示了不同的功能。 作为 DWH 的一个子集,数据集市服务于特定的用户组,例如部门或特定的业务单位。 虽然 DWH 拥有与多个部门相关的多个主题 - 例如销售、客户、产品、库存、供应商 - 数据集市通常拥有一个部门的一个主题领域,例如销售或财务。

有两种类型的数据集市 - 依赖的和独立的 - 每种都有独特的优势。 依赖数据集市取自DWH,具有一致性的优势。 因为所有数据在 DWH 中都是集中且一致的,所以生成的数据集市也是一致的。 虽然更健壮,但依赖数据集市需要 DWH,因此开发成本更高。

另一方面,独立数据集市直接从相同的源数据库中提取数据,很像迷你 DWH。 尽管开发速度更快、成本更低,但独立数据集市的风险更大,因为独立开发的数据集市之间的数据定义可能会变得不一致。 但是,如果有规律地开发,独立的数据集市最终可以组装成 DWH。

数据湖通常配置在一组廉价且可扩展的商品硬件上。 这允许将数据转储到湖中,而不必担心存储容量。 虽然 DWH 通常仅限于文本和数字数据,但该湖还可以容纳更广泛的种类,包括社交媒体、传感器数据和图像。

数据仓库和数据挖掘

DWH 支持数据挖掘,使公司具备预测未来的能力。 数据挖掘的主要目标是揭示大型数据集中的模式。 反过来,这些模式揭示了不同类别的数据及其基础业务功能之间的关系。

这种关系为管理者提供了可操作的信息,本质上是新的杠杆来推动预期的业务成果,例如客户增长或每位客户的销售额增加。 例如,按地理或行业细分查看历史销售数据可能会突出异常增长,其来源可能为销售经理提供适用于其他细分市场的学习。