構建數據倉庫的示例路線圖

已發表: 2018-03-30

數據倉庫是一種將所有組織數據整合到一個地方以便於訪問和更好地分析的技術,是每個業務利益相關者的夢想。 但是,建立數據倉庫是一項非常複雜的任務,甚至在邁出第一步之前,您就應該完全確定以下兩個問題的答案:

    1. 您組織的目標

  1. 您構建數據倉庫的詳細路線圖

如果不回答這些問題中的任何一個,從長遠來看,您的組織都會付出很多代價。 這是一種相對較新的技術,如果您不了解組織的特定需求和要求,您將產生很大的錯誤空間。 這些錯誤會使您的倉庫高度不准確。 更糟糕的是,錯誤的數據倉庫比根本沒有數據更糟糕,而計劃外的策略最終可能會弊大於利。
因為開發數據倉庫有不同的方法,並且每種方法都取決於組織的規模和需求,所以不可能創建一個萬能的計劃。
話雖如此,讓我們嘗試制定一個示例路線圖,以幫助您為您的組織開發強大且高效的數據倉庫:

目錄

建立數據倉庫

在組織大量數據以有效檢索和分析時,數據倉庫非常有用。 出於同樣的原因,應特別注意確保數據可快速訪問。 設計系統的一種方法是使用維度建模——一種允許高效、快速地查詢和檢查大量數據的方法。 由於數據倉庫中存在的大部分數據都是歷史數據和穩定的——從某種意義上說,它不會經常變化,因此幾乎不需要採用重複的備份方法。 相反,一旦添加了任何數據,就可以立即備份整個倉庫——而不是常規備份。

數據倉庫工具大致可以分為四類:

    • 提取工具,

    • 表管理工具,

    • 查詢管理工具,以及

  • 數據完整性工具。

這些工具中的每一個在數據倉庫開發的不同階段都非常方便。 您的研究將幫助您更多地了解這些工具,並允許您選擇適合您需求的工具。
數據倉庫的關鍵概念:概述

現在,讓我們看一個示例路線圖,它可以幫助您為您的組織構建一個更強大、更有洞察力的倉庫:

評估你的目標

建立組織數據倉庫的第一步是評估您的目標。 我們之前已經提到過這一點,但我們不能強調這一點。 大多數組織僅僅因為缺乏對公司目標、要求和目標的清晰了解而失去了寶貴的洞察力。 例如,如果您是一家正在尋找第一個重大突破的公司,您可能希望讓您的客戶參與建立融洽的關係——因此,您需要採用與已經成熟且現在想要使用數據倉庫以改善其運營。 將數據倉庫引入內部對於任何組織來說都是一大步,只有在您進行一些盡職調查後才能執行。

分析當前的技術系統

通過詢問您的客戶和業務利益相關者提出的問題,您可以收集有關當前技術系統的性能、面臨的挑戰以及可能的改進的見解。 此外,他們甚至可以了解他們當前的技術堆棧有多合適——從而有效地決定是保留還是替換它。 您組織的各個部門可以通過提供報告和反饋來為此做出貢獻。
最常見的數據挖掘示例

信息建模

信息模型是組織數據的表示。 它是概念性的,允許您形成關於哪些業務流程需要相互關聯以及如何將它們鏈接起來的想法。 數據倉庫最終將是相關結構的集合,因此,重要的是概念化需要連接在一起的指標並創建最佳性能方法——這就是所謂的信息建模。 設計高效信息模型的最簡單方法是將關鍵績效指標收集到事實表中,並將它們與客戶、員工、產品等各個維度相關聯。

學習世界頂尖大學的數據科學課程獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。

倉庫設計和數據跟踪

一旦您收集了對您的組織的見解並準備了一個有效的信息模型,現在是時候將您的數據移入倉庫並跟踪其性能了。 在設計階段,必須計劃如何鏈接來自不同數據庫的所有數據,以便在我們將信息加載到我們的數據倉庫表時可以相互連接。 ETL 工具可能非常耗費時間和金錢,並且可能需要專家才能成功實施。 因此,重要的是要在正確的時間了解正確的工具 - 並選擇您可用的最具成本效益的選項。 數據倉庫會消耗大量存儲空間,因此您需要計劃如何隨著時間的推移歸檔數據。 做到這一點的一種方法是保持一個三倍粒度的數據存儲系統(我們稍後會詳細討論)。 但是,粒度的問題是數據粒度會在一段時間內延遲。 因此,您應該設計您的系統,使不同的粒度與特定的數據結構一致。

實施計劃

現在您已經制定了計劃並將數據鏈接在一起,是時候實施您的策略了。 數據倉庫的實施是一項宏大的舉措,為項目的調度提供了可行的依據。 項目應該被分解成塊,並且應該一次一個地處理。 建議為每個任務塊定義一個完成階段,並最終在完成時整理所有位。 通過如此系統化和深思熟慮的實施,您的數據倉庫將更有效地執行並提供數據分析階段所需的急需信息。

什麼是數據倉庫和數據挖掘

更新

您的數據倉庫將經受住時間和粒度的考驗。 它必須在很長一段時間內和許多粒度級別上保持一致。 在設置的設計階段,您可以選擇與非重複更新相關的各種存儲計劃。 例如,IT 經理可以設置每日、每週或每月的糧食儲存系統。 在日糧中,數據可以按照採集時的原始格式存儲,可以保存2-3年,之後需要匯總並移到週糧中。 現在,數據可以在未來 3-5 年內保持在每週粒度結構中,之後將轉移到每月粒度結構中。
遵循上述路線圖將確保您在即將到來的長跑中走在正確的軌道上。 如果您有任何疑問,請隨時將它們放在下面的評論中。

什麼是數據倉庫?

數據倉庫是一種數據管理系統,旨在促進和協助商業智能和分析活動。

數據倉庫允許您執行邏輯查詢、創建可靠的預測模型並發現整個公司的重要趨勢。 v

建立一個數據倉庫需要多長時間?

時間是市場上關於數據倉庫和商業智能的常見問題。 儘管這些數字值得商榷,但讓我們堅持傳統的理解,即數據倉庫通常需要很長時間才能看到結果。

設置分析所需的時間投資太大了。 構建數據倉庫所需的時間可能從 12 個月到 24 個月不等。 但是,這是完全值得的,因為成功的數據倉庫項目可以徹底改變組織的流程和願景。 他們有能力闡明問題,引領新前景,並幫助各級員工改善日常工作生活。

數據倉庫有哪些最重要的功能?

典型數據倉庫的一些基本組件是:

1. 中央數據庫:數據倉庫的基石是數據庫。 這些是可以在本地或云中使用的傳統關係數據庫。 然而,由於大數據、真實、實時速度的必要性以及 RAM 成本的大幅下降,內存數據庫正在迅速普及。
2. 數據集成:利用ETL(Extract, Transform, Load)、實時數據複製、批量加載處理、數據轉換、數據質量等多種數據集成技術從源系統收集數據並進行修改它已準備好進行快速分析消耗。
3. 元數據:詳細說明數據倉庫中的數據集的來源、用途、價值和其他特徵。 業務元數據賦予數據意義,技術元數據解釋如何訪問數據,例如數據的存儲位置和組織方式。
4. 數據倉庫訪問工具:用戶可以使用查詢和報告工具、應用程序開發工具、數據挖掘工具、OLAP 工具等訪問工具與您的數據倉庫中的數據進行交互。