簡報:數據倉庫

已發表: 2022-03-11

公司和消費者正在生成比以往更多的數據。 數字設備和產品的激增正在推動數字世界的指數級擴張。 雖然名義上是一種資產,但這些數據的規模提出了一個挑戰:公司如何實際組織他們的信息以揭示可操作的見解?

雖然數據挖掘和商業智能為此類洞察提供了有價值的提取和呈現,但數據倉庫 (DWH) 是對通常位於多個位置的大量基礎數據進行的預備聚合和重組。 了解 DWH 在更廣泛的數據科學、數據挖掘和商業智能生態系統中的作用對於現代管理者來說至關重要。

什麼是數據倉庫?

DWH 是一個集中的數字信息存儲庫,從各種不同的來源聚合而成,並以針對報告進行優化的結構進行組織。 最重要的是,DWH 為整個企業提供了可操作的信息,使員工能夠執行量身定制的分析並做出更好的決策。

基本數據倉庫概念

關係與維度模型

要了解數據倉庫的功能,了解關係模型和維度模型之間的區別很重要。 雖然聽起來很技術,但它們很容易區分。

從實際使用的角度來看,關係數據庫和維度數據庫在一個關鍵標准上有所不同:信息流。 雖然關係數據庫針對數據輸入進行了優化,但維度數據庫是針對輸出構建的,特別是以報告和分析的形式(稱為商業智能)。

關係模型圍繞單個信息點組織信息,例如客戶名稱。 在這樣的模型中,客戶名稱存在於一個位置,所有相關信息(例如聯繫方式和交易日期)都列在相關或相關表中。

相比之下,維度數據庫本質上是對關係數據庫的“解包”,使用戶可以輕鬆地按照滿足其報告需求所需的排列方式對數據進行“切片和切塊”。 例如,在上面的關係數據庫條目中,客戶聯繫方式將被分解為離散字段,例如電話號碼、街道地址、城市、州和郵政編碼。

維度數據庫本質上是對關係數據庫的“解包”,允許用戶輕鬆“切片”數據

關係數據庫和維度數據庫之間的區別可能看起來很抽象。 然而,對於那些負責提供越來越複雜的分析和報告的人來說,欣賞這種區別為與維護這些資源的技術團隊合作提供了寶貴的基礎理解。

數據倉庫——“開啟”

正如數據倉庫的創建者之一 Bill Inmon 所詳述的,一些特定的特徵支配著數據倉庫的設計。 根據 Inmon 的說法,數據倉庫是一個面向主題的、非易失性的、集成的、時變的數據集合,以支持管理層的決策。

這很拗口,但一旦分解成幾部分,這個定義就清楚地描繪了 DWH 基本結構。 為了使這些標準易於記憶,我們根據字謎“It's On”重新組織了 Inmon 的標準

集成:數據必須具有一致的格式。 通常來自不同來源的數據字段必須具有一致的命名約定。

時間變量: DWH 揭示趨勢,這取決於隨時間的變化。 隨著時間的推移記錄數據點是揭示數據之間關係的基礎。

面向主題: DWH 支持以主題為中心的分析和報告。 例如,一家公司可能希望隨著時間的推移評估產品的銷售情況,然後深入了解區域或客戶細分市場的特定趨勢。

非易失性:數據一旦進入倉庫,就不會改變。

數據倉庫不同於事務數據庫

DWH 和事務數據庫系統執行根本不同的功能,並為不同的用戶服務。 雖然 DWH 針對報告和分析進行了優化,但事務系統(通常稱為在線事務處理 (OLTP))針對可用性和處理速度進行了優化。

OLTP 用戶通常是前端員工,他們通常一次訪問多條記錄。 DWH 用戶通常是分析師和經理,他們的報告可能同時調用多達數百萬條記錄。

交易系統和 DWH 在數據粒度和持久性上也有所不同。 在 OLTP 中,數據包含當前值,這些值是詳細且高度可變的(每隔幾秒,成千上萬的事務就會更改這些記錄的值)。 相比之下,DWH 包含重組後的數據,一旦加載就無法更改。

消費貸款流程簡明扼要地說明了這些系統之間的主要區別。 例如,當客戶獲得汽車貸款時,交易數據庫會捕獲諸如汽車類型、顏色、購買年份、購買價格和買家個人詳細信息等詳細信息。 一旦轉換為 DWH 模型,交易信息(圍繞單個客戶交易)被分解為組成部分。 反過來,這些部分與其他交易的可比部分合併。

查詢 DWH,貸方的員工可能會訪問由匯總的客戶數據組成的報告。 例如,為了優化廣告支出,營銷經理可能會尋找具有最高貸款批准率或貸款申請人平均年齡和收入水平的給定類型或價格範圍的汽車。 此類信息可能會將重新定向的廣告支出引導到具有更有針對性的消息傳遞的更相關的渠道。

數據倉庫與數據集市和數據湖

DWH 可能伴隨著相關的數據庫——數據集市和數據湖——它們的描述性名稱暗示了不同的功能。 作為 DWH 的一個子集,數據集市服務於特定的用戶組,例如部門或特定的業務單位。 雖然 DWH 擁有與多個部門相關的多個主題 - 例如銷售、客戶、產品、庫存、供應商 - 數據集市通常擁有一個部門的一個主題領域,例如銷售或財務。

有兩種類型的數據集市 - 依賴的和獨立的 - 每種都有獨特的優勢。 依賴數據集市取自DWH,具有一致性的優勢。 因為所有數據在 DWH 中都是集中且一致的,所以生成的數據集市也是一致的。 雖然更健壯,但依賴數據集市需要 DWH,因此開發成本更高。

另一方面,獨立數據集市直接從相同的源數據庫中提取數據,很像迷你 DWH。 儘管開發速度更快、成本更低,但獨立數據集市的風險更大,因為獨立開發的數據集市之間的數據定義可能會變得不一致。 但是,如果有規律地開發,獨立的數據集市最終可以組裝成 DWH。

數據湖通常配置在一組廉價且可擴展的商品硬件上。 這允許將數據轉儲到湖中,而不必擔心存儲容量。 雖然 DWH 通常僅限於文本和數字數據,但該湖還可以容納更廣泛的種類,包括社交媒體、傳感器數據和圖像。

數據倉庫和數據挖掘

DWH 支持數據挖掘,使公司具備預測未來的能力。 數據挖掘的主要目標是揭示大型數據集中的模式。 反過來,這些模式揭示了不同類別的數據及其基礎業務功能之間的關係。

這種關係為管理者提供了可操作的信息,本質上是新的槓桿來推動預期的業務成果,例如客戶增長或每位客戶的銷售額增加。 例如,按地理或行業細分查看歷史銷售數據可能會突出異常增長,其來源可能為銷售經理提供適用於其他細分市場的學習。