构建数据仓库的示例路线图
已发表: 2018-03-30数据仓库是一种将所有组织数据整合到一个地方以便于访问和更好地分析的技术,是每个业务利益相关者的梦想。 但是,建立数据仓库是一项非常复杂的任务,甚至在迈出第一步之前,您就应该完全确定以下两个问题的答案:
- 您组织的目标
- 您构建数据仓库的详细路线图
如果不回答这些问题中的任何一个,从长远来看,您的组织都会付出很多代价。 这是一种相对较新的技术,如果您不了解组织的特定需求和要求,您将产生很大的错误空间。 这些错误会使您的仓库高度不准确。 更糟糕的是,错误的数据仓库比根本没有数据更糟糕,而计划外的策略最终可能会弊大于利。
因为开发数据仓库有不同的方法,并且每种方法都取决于组织的规模和需求,所以不可能创建一个万能的计划。
话虽如此,让我们尝试制定一个示例路线图,以帮助您为您的组织开发强大且高效的数据仓库:
目录
建立数据仓库
在组织大量数据以有效检索和分析时,数据仓库非常有用。 出于同样的原因,应特别注意确保数据可快速访问。 设计系统的一种方法是使用维度建模——一种允许高效、快速地查询和检查大量数据的方法。 由于数据仓库中存在的大部分数据都是历史数据和稳定的——从某种意义上说,它不会经常变化,因此几乎不需要采用重复的备份方法。 相反,一旦添加了任何数据,就可以立即备份整个仓库——而不是常规备份。
数据仓库工具大致可以分为四类:
- 提取工具,
- 表管理工具,
- 查询管理工具,以及
- 数据完整性工具。
这些工具中的每一个在数据仓库开发的不同阶段都非常方便。 您的研究将帮助您更多地了解这些工具,并允许您选择适合您需求的工具。
数据仓库的关键概念:概述
现在,让我们看一个示例路线图,它可以帮助您为您的组织构建一个更强大、更有洞察力的仓库:
评估你的目标
建立组织数据仓库的第一步是评估您的目标。 我们之前已经提到过这一点,但我们不能强调这一点。 大多数组织仅仅因为缺乏对公司目标、要求和目标的清晰了解而失去了宝贵的洞察力。 例如,如果您是一家正在寻找第一个重大突破的公司,您可能希望让您的客户参与建立融洽的关系——因此,您需要采用与已经成熟且现在想要使用数据仓库以改善其运营。 将数据仓库引入内部对于任何组织来说都是一大步,只有在您进行一些尽职调查后才能执行。
分析当前的技术系统
通过询问您的客户和业务利益相关者提出的问题,您可以收集有关当前技术系统的性能、面临的挑战以及可能的改进的见解。 此外,他们甚至可以了解他们当前的技术堆栈有多合适——从而有效地决定是保留还是替换它。 您组织的各个部门可以通过提供报告和反馈来为此做出贡献。
最常见的数据挖掘示例
信息建模
信息模型是组织数据的表示。 它是概念性的,允许您形成关于哪些业务流程需要相互关联以及如何将它们链接起来的想法。 数据仓库最终将是相关结构的集合,因此,重要的是概念化需要连接在一起的指标并创建最佳性能方法——这就是所谓的信息建模。 设计高效信息模型的最简单方法是将关键绩效指标收集到事实表中,并将它们与客户、员工、产品等各个维度相关联。

学习世界顶尖大学的数据科学课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
仓库设计和数据跟踪
一旦您收集了对您的组织的见解并准备了一个有效的信息模型,现在是时候将您的数据移入仓库并跟踪其性能了。 在设计阶段,必须计划如何链接来自不同数据库的所有数据,以便在我们将信息加载到我们的数据仓库表时可以相互连接。 ETL 工具可能非常耗费时间和金钱,并且可能需要专家才能成功实施。 因此,重要的是要在正确的时间了解正确的工具 - 并选择您可用的最具成本效益的选项。 数据仓库会消耗大量存储空间,因此您需要计划如何随着时间的推移归档数据。 做到这一点的一种方法是保持一个三倍粒度的数据存储系统(我们稍后会详细讨论)。 但是,粒度的问题是数据粒度会在一段时间内延迟。 因此,您应该设计您的系统,使不同的粒度与特定的数据结构一致。
实施计划
现在您已经制定了计划并将数据链接在一起,是时候实施您的策略了。 数据仓库的实施是一项宏大的举措,为项目的调度提供了可行的依据。 项目应该被分解成块,并且应该一次一个地处理。 建议为每个任务块定义一个完成阶段,并最终在完成时整理所有位。 通过如此系统化和深思熟虑的实施,您的数据仓库将更有效地执行并提供数据分析阶段所需的急需信息。
什么是数据仓库和数据挖掘
更新
您的数据仓库将经受住时间和粒度的考验。 它必须在很长一段时间内和许多粒度级别上保持一致。 在设置的设计阶段,您可以选择与非重复更新相关的各种存储计划。 例如,IT 经理可以设置每日、每周或每月的粮食储存系统。 在日粮中,数据可以按照采集时的原始格式存储,可以保存2-3年,之后需要汇总并移到周粮中。 现在,数据可以在未来 3-5 年内保持在每周粒度结构中,之后将转移到每月粒度结构中。
遵循上述路线图将确保您在即将到来的长跑中走在正确的轨道上。 如果您有任何疑问,请随时将它们放在下面的评论中。
什么是数据仓库?
数据仓库是一种数据管理系统,旨在促进和协助商业智能和分析活动。
数据仓库允许您执行逻辑查询、创建可靠的预测模型并发现整个公司的重要趋势。 v
建立一个数据仓库需要多长时间?
时间是市场上关于数据仓库和商业智能的常见问题。 尽管这些数字值得商榷,但让我们坚持传统的理解,即数据仓库通常需要很长时间才能看到结果。
设置分析所需的时间投资太大了。 构建数据仓库所需的时间可能从 12 个月到 24 个月不等。 但是,这是完全值得的,因为成功的数据仓库项目可以彻底改变组织的流程和愿景。 他们有能力阐明问题,引领新前景,并帮助各级员工改善日常工作生活。
数据仓库有哪些最重要的功能?
典型数据仓库的一些基本组件是:
1. 中央数据库:数据仓库的基石是数据库。 这些是可以在本地或云中使用的传统关系数据库。 然而,由于大数据、真实、实时速度的必要性以及 RAM 成本的大幅下降,内存数据库正在迅速普及。
2. 数据集成:利用ETL(Extract, Transform, Load)、实时数据复制、批量加载处理、数据转换、数据质量等多种数据集成技术从源系统收集数据并进行修改它已准备好进行快速分析消耗。
3. 元数据:详细说明数据仓库中的数据集的来源、用途、价值和其他特征。 业务元数据赋予数据意义,技术元数据解释如何访问数据,例如数据的存储位置和组织方式。
4. 数据仓库访问工具:用户可以使用查询和报告工具、应用程序开发工具、数据挖掘工具、OLAP 工具等访问工具与您的数据仓库中的数据进行交互。