數據倉庫的關鍵概念:概述
已發表: 2018-03-20在過去的幾十年裡,基於雲的技術發生了一場革命。 這些技術使組織能夠無縫地存儲和檢索有關其客戶、產品和員工的數據。 然後,這些數據可用於收集可操作的見解並使組織更上一層樓。
雖然大數據和分析處理在檢索數據後對數據執行的操作,但數據倉庫的概念側重於數據如何存儲在雲中。 許多全球組織已經採用數據倉庫的概念來組織從世界各地的運營中心和公司分支機構流出的數據。
直到大數據熱潮發生之前,數據倉庫的概念才出現。 在此之前,所有組織都使用 OLTP(操作數據庫),它適用於管理、跟踪和分析日常活動,但在處理可能跨越 TB 大小的歷史數據集時卻慘遭失敗。 OLTP 系統只是一個在實體-關係上工作的關係數據庫模型。 儘管仍在使用,但由於當今組織的數據量巨大,OLTP 正在慢慢消失。
輸入:數據倉庫!
目錄
什麼是數據倉庫?
數據倉庫的概念允許組織收集、存儲和交付決策支持數據。 數據倉庫的概念很廣泛,數據倉庫是在倉庫過程中創建的工件之一。
“數據倉庫”一詞是由 William (Bill) H. Inmon 在 1990 年創造的。根據 Inmon 的說法,數據倉庫只是一個面向主題的、集成的、時變的、非易失性的數據集合,以支持管理層的決策——製作過程。
誰是數據科學家、數據分析師和數據工程師?
我們之前談到的 OLTP 經常發生變化(幾乎每天)。 由於缺乏歷史數據,業務主管無法分析以前的產品反饋或投訴。
另一方面,數據倉庫在多維視圖中提供整合的數據。 它還提供 OLAP(在線分析處理)工具——當您開始分析您存儲的數據時,這些工具非常有用。 與 OLTP 不同,數據倉庫還支持數據挖掘、分類、聚類和預測分析等操作。 由於所有這些原因以及更多原因,數據倉庫的概念已成為任何組織不可或缺的一部分。
什麼不是數據倉庫?
對數據倉庫概念相對較新的人經常將“數據倉庫”與“數據庫”混淆。 然而,在我們進一步討論之前,讓我們先澄清這一點——數據倉庫不僅僅是一個數據庫,而且還不止於此。 它包括從多個數據源收集的運營數據副本,可在戰略決策期間派上用場。
有些人還認為數據倉庫只包含歷史數據。 然而,事實遠非如此。 數據倉庫可以包含歷史數據,也可以包含分析和報告數據。 但是,在數據存儲中管理的事務數據並不存儲在倉庫中。 使用數據倉庫的目的是分析歷史數據並無縫獲得可行的見解。
辛普森悖論到底是什麼? 它如何影響數據?
數據倉庫的重要性
到目前為止,我們在數據倉庫的概念、對它的需求方面達成了一致,並看到了數據倉庫和 OLTP 之間的顯著差異。 現在,讓我們看看數據倉庫概念的重要性:
確保數據一致性
數據倉庫存儲來自各種來源的數據,這些數據有多種格式。 因此,它們被編程為應用 ETL 方法以確保數據整體一致。 一致性使數據倉庫成為企業決策者分析數據並與全球同事共享數據見解的完美工具。 標準化和格式化數據還可以降低數據分析時出錯的風險; 從而提供整體更好的準確性。
促進更好的決策
“首先是數據,然後是理論。” 數據倉庫允許組織輕鬆存儲和檢索數據,從而確保圍繞該數據制定更好的理論和策略。 數據倉庫在訪問不同數據集方面也快得多,並且更容易獲得可操作的見解。

提高他們的底線
數據倉庫允許利益相關者深入了解他們的歷史數據,從而有助於改善任何組織的整體運營。 這最終使企業領導者能夠快速跟踪其組織過去的活動並評估成功(或不成功)的戰略。 這讓高管們可以看到他們可以在哪裡調整他們的方法來降低成本、最大限度地提高效率並增加銷售額以提高他們的底線。
數據倉庫概念中和周圍的一些關鍵術語:
元數據
元數據本質上只是關於數據的數據。 例如,如果我們談論一本書,它的索引可以作為該書內容的元數據。 換句話說,元數據可以理解為對完整數據的總結。
在數據倉庫方面,我們可以將元數據定義為 -
- 數據倉庫的路線圖。
- 幫助決策支持系統定位數據倉庫內容的目錄。
數據立方體
數據立方體由維度和事實定義,幫助我們在多個維度上表示數據。 維度只不過是組織保存記錄的實體。 它主要用於存儲用於報告目的的數據。 多維數據集的每個維度代表數據庫的某個特徵,例如,每日、每月或每年的銷售額。 數據立方體中包含的數據可以分析幾乎所有客戶、銷售代理、產品等的幾乎所有數據。 因此,數據立方體可以理想地幫助建立趨勢和分析性能。
獲得世界頂尖大學的數據科學認證。 加入我們的行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
數據庫
數據集市可以理解為為組織的特定部分服務而構建的數據存儲庫。 數據集市包含對特定人群有價值的整個組織數據的一個子集。 例如,專門為營銷團隊設計的數據集市可能只包含與項目、客戶和銷售相關的數據。 數據集市僅限於相關主題。
數據倉庫以及重要的術語和技術。 如果您覺得它有趣,我們建議您通過擺弄數據挖掘、數據分析等概念來深入閱讀該主題。 路漫漫其修遠兮,數據倉庫只是起點。
如果您有任何疑問或問題,請在下面的評論中告訴我們!
為什麼公司應該利用數據倉庫?
現代數據倉庫系統簡化了設計、構建和部署數據倉庫的耗時任務,以滿足快速變化的公司需求。 因此,許多公司使用數據倉庫解決方案來獲取信息。 改進的數據分析、更高的收入以及在市場上更具戰略性競爭的能力都是擁有數據倉庫的優勢。 數據倉庫工具利用各種相關技術,例如結構化和非結構化數據、ETL 軟件和數據挖掘,來實現這些好處。
數據倉庫的一些主要優勢包括:
1.允許歷史洞察力
2. 提高數據質量和一致性
3. 提高生產力
4. 數據分析可以變得更強大和更快
5. 增加收入
6. 與本地和基於雲的系統交互
什麼是最好的數據倉庫工具?
如今,許多企業都依賴數據倉庫工具。 選擇正確的解決方案來管理和維護數據倉庫,以及找到一個完全適合業務目標和限制的解決方案可能很困難。
以下是企業可能用來從其數據倉庫中提取有用數據的一些數據倉庫工具的概述:
1. Amazon Redshift:Amazon Redshift 是一種數據倉庫工具,可以使用現有的商業智能工具使用簡單的 SQL 查詢來檢查數據。 它使用高性能計算、並行執行、統一查詢優化和列存儲來運行複雜的分析查詢。 默認情況下,Amazon Redshift 對其靜態數據進行加密。
2. Google BigQuery:Google BigQuery 是一種無服務器、經濟高效且高度可擴展的數據倉庫工具,包括機器學習並利用商業智能引擎。 它使用 ANSI SQL 語言快速分析 PB 級數據,通過靈活的架構提供跨雲數據的洞察和解決方案,並以經濟高效的方式存儲和查詢海量數據集。
3. Microsoft Azure:Microsoft Azure 是一種數據倉庫工具,它結合了 200 多種產品和雲服務,有助於設計、運行和管理跨不同云網絡的高度可擴展的應用程序。 它有助於在各種雲和混合環境中部署 Windows 和 Linux 虛擬機。