2022 年 30 大數據倉庫面試問題和答案 [針對應屆生和有經驗者]

已發表: 2021-01-06

本文列出的數據倉庫面試問題將對從事數據倉庫和商業智能職業的人有所幫助。 隨著機器學習的出現,需要分析大量數據以更快地獲得洞察力並實施結果。 那些數據處理步驟是數據存儲、同化、獲取和處理的日子已經一去不復返了。 但隨著數據量的增加,需要對此類數據進行處理並顯示即時結果。

醫療保健、BFSI、公用事業和許多政府組織等所有企業都在轉向數據科學中的數據倉庫。 因此,僱用了更多在數據倉庫方面具有專業知識的專業人員,以便他們可以分析大量數據並提供相關見解。 因此,數據倉庫面試問題變得相關,可以輕鬆破解面試並獲得重要知識。

如果您熱衷於處理海量數據和管理數據庫,那麼數據倉庫對您來說是一個很好的職業選擇。 在本文中,您將獲得可以幫助您準備下一次面試數據倉庫面試問題。 這些問題從基礎到專家級別,因此無論是新手還是經驗豐富的專業人士都將從這些數據倉庫面試問題中受益

目錄

數據倉庫面試問題

Q1:就數據倉庫而言,數據分析是什麼?

數據分析是檢查原始數據以得出業務驅動的數據結論的科學。 數據倉庫支持數據分析。

Q2:定義一個面向主題的數據倉庫?

面向主題的數據倉庫圍繞銷售、客戶和產品等特定點存儲數據。

Q3:OLAP是什麼意思,它的類型有哪些?

OLAP是一個處理、管理和收集多維數據進行管理的系統。 它代表在線分析處理。

下面給出了四種類型的 OLAP 服務器:

  • 混合OLAP
  • 關係 OLAP
  • 專用 SQL Server
  • 多維OLAP

Q4:OLAP 和 OLTP 有什麼區別?

OLAP 是一種用於數據分析的軟件工具,有助於業務決策,而 OLTP 是一種用於三層架構的面向事務的應用程序。 以下是 OLAP 和 OLTP 之間的一些區別:

OLAP(在線分析處理) OLTP(在線事務處理)
它包含從不同數據庫收集的歷史數據。 它包含操作數據。
它用於數據分析、數據挖掘和決策制定。 它是面向應用程序的,用於各種與業務相關的任務。
它存儲了大量的數據,並且以 TB 為單位。 它存儲少量數據,以MB、GB等為單位存儲。
它工作緩慢,因為數據量很大。 它的工作速度非常快,並且對 5% 的存儲數據進行查詢。
它只需要不時備份數據。 定期進行數據的備份和恢復。
它主要用於很少發生寫操作的讀操作。 它用於讀取和寫入操作。

Q5:OLAP 執行哪些功能?

OLAP 執行的一些主要功能是 Pivot、Drill-down、Roll-up、Slice 和 Dice。

Q6:什麼是ER圖?

ER 圖代表實體關係圖,它顯示了數據庫中實體之間的相互關係。

Q7:什麼是SCD?

SCD 代表慢慢變化的維度,它適用於記錄隨時間變化的情況。

Q8:定義SCD的類型。

SCD 有 3 種類型,如下所示:

SCD 1:新記錄替換原始記錄。

SCD 2:新記錄被添加到現有的客戶表中

SCD 3:原始數據得到更改以輸入新數據。

Q9:什麼是雪花模式?

Snowflake Schema 是具有主維度表的模式。 可以在主維度表中連接一個或多個維度。 它是唯一可以與事實表連接的表。

問題 10:定義星型模式。

星型模式是指以一種可以在數據倉庫環境中輕鬆恢復結果的方式管理表。

Q11:定義 BUS Schema。

如果存在事實表,則 BUS 模式包括標準化定義和確認維度套件。

Q 12:定義元數據。

它指的是關於數據的數據。 元數據由字段排序、使用的幾列、字段的數據類型、有限寬度和固定寬度等細節組成。

Q13:定義核心維度。

核心維度是一個維度表,主要用於數據集市或單個事實表。

Q14:定義數據倉庫中的循環。

這些循環存在於數據倉庫中的表之間。 如果表之間存在任何循環,則查詢生成需要更多時間並創建一個謎。 因此,始終建議避免表之間的任何循環。

Q15:解釋 XMLA。

XMLA 稱為 XML for Analysis,它提供了從 OLAP、數據挖掘和 Internet 上可用的其他數據源訪問數據的標準方法。 它是一個使用發現和執行方法的簡單對象訪問協議。 發現方法從互聯網檢索數據,執行方法用於針對不同數據源執行應用程序。

閱讀:數據科學面試問題

Q16:解釋數據庫和數據倉庫的區別。

數據庫與數據倉庫不同,因為數據庫使用關係模型進行數據存儲。 相比之下,數據倉庫使用其他模式,啟動模式就是其中之一。 以下是數據庫和數據倉庫之間的一些區別:

特徵數據庫數據倉庫
數據類型關係數據或面向對象的數據大容量數據
運營事務處理數據建模和數據分析
方面二維數據多維數據
數據設計基於 ER 星形和雪花模式
數據大小小的
功能性高性能和可用性高靈活性

Q17:在數據倉庫中定義Cube。

數據倉庫中的立方體是多維數據的表示。 立方體的主體由數據值組成,立方體的邊緣包含維度成員。

問題 18。 解釋數據倉庫的類型?

數據倉庫有以下3種類型:

  1. 企業數據倉庫:在企業數據倉庫中,來自各個功能區域的組織數據集中合併。 這有助於數據的提取和轉換,從而提供數據模型中任何對象的詳細概述。
  2. 操作數據存儲:此數據倉庫有助於直接從數據庫訪問數據,還支持事務處理。 它整合了來自不同來源的對比數據,為後期的各種業務運營提供支持。
  3. 數據集市:此數據倉庫存儲特定功能區域的數據。 此外,它包含子集形式的數據,然後將其存儲在數據倉庫中。 它減少了大量數據,供用戶有效分析並獲得洞察力。

Q19:多維 OLAP 和關係 OLAP,哪個工作得更快?

多維 OLAP 的工作速度比關係 OLAP 快。

  1. 多維 OLAP:在 MOLAP 中,數據存儲在多維立方體中。 數據以專有格式存儲,例如 PowerOLAP.olp 文件。 這些產品與excel兼容,使數據交互變得容易。
  2. 關係 OLAP:在關係 OLAP 產品中,可以使用 SQL 訪問關係數據庫,SQL 是用於在 RDBMS 中操作數據的標準語言。 在執行處理時,它接受客戶端請求,然後將其轉換為 SQL 查詢,然後傳遞到 RDBMS。

Q20:解釋分裂層次聚類和凝聚聚類的區別。

在凝聚層次聚類方法中,簇從下到上讀取,這意味著程序先讀取子組件,然後讀取父組件。 另一方面,分裂層次聚類使用從上到下的方法,其中先讀取父級的數據,然後再讀取子級的數據。

在凝聚層次方法中,對像是存在的,每個對像都建立自己的集群,所有這些集群一起構成一個大集群。 該方法主要包括連續合併,直到創建單個大集群,而在分裂集群方法中,集群的劃分發生。 父集群被分成更小的集群。 集群的這種劃分一直持續到每個集群由一個對象組成。

了解更多:數據科學與數據挖掘:數據科學與數據挖掘之間的區別

Q21:數據倉庫中的變色龍法是什麼?

Chameleon 是數據倉庫中的層次聚類方法。 該方法適用於由節點和邊組成的稀疏圖。 這些節點代表數據項,邊代表權重。 通過這種表示,可以輕鬆地創建和訪問數據集,克服現有方法的缺點。 該方法分兩個階段工作:

  • 在第一階段,圖被分區,其中數據項被劃分為許多子集群。
  • 在第二階段,搜索真正的集群,然後將其與第一階段創建的其他子集群組合。

Q22:執行計劃是什麼,優化器在執行計劃的過程中採用了什麼方法?

執行計劃是優化器用來選擇執行 SQL 查詢的步驟組合的計劃。 優化器選擇最有效的步驟組合來執行 SQL 查詢。 優化器在執行計劃中使用兩種方法,即基於規則的和基於成本的。

Q23:ETL(提取、轉換和加載)中使用了哪些不同的工具?

以下是 ETL 工具列表:

  • 信息學
  • 甲骨文
  • 數據階段
  • 數據連接
  • 從頭算起
  • 倉庫建設者

Q24:元數據和數據字典有何不同?

元數據描述數據。 它包含有關數據的所有信息,例如數據來源、收集數據的人員和數據格式。 了解有關存儲在數據倉庫中的數據的信息至關重要。 另一方面,數據字典是數據庫的基本定義。 數據字典由數據庫中存在的文件、每個文件中存在的記錄數以及有關數據庫中字段的所有信息組成。

Q25:定義虛擬數據倉庫。

虛擬數據倉庫提供完整數據的集體視圖。 它就像元數據的邏輯數據模型,沒有歷史數據。 虛擬數據倉庫是轉換原始數據並以可供決策者使用的形式呈現的最佳方式。 數據表示為允許最終用戶以虛擬化形式查看數據的語義圖。

另請閱讀:數據分析師面試問答

Q26:設計數據倉庫的方法有哪些?

數據倉庫設計主要有兩種方法:

  1. Inmon 方法:這是一種自上而下的方法,首先創建數據倉庫,然後構建數據集市。 在這種方法中,數據倉庫充當企業信息工廠的中心,而數據倉庫充當邏輯框架。
  2. Kimball 方法:這是一種自下而上的方法,首先創建數據集市。 然後數據集市整合形成完整的數據倉庫。 不同數據集市的集成稱為數據倉庫總線架構。

Q27:什麼是實時數據倉庫,它有什麼好處?

實時數據倉庫是一種數據倉庫概念,它在實時數據發生時立即捕獲並使其在數據倉庫中可用。

實時數據倉庫的好處:

  • 它有助於輕鬆做出決策。
  • 它刪除了批處理窗口。
  • 它解決了與理想數據加載相關的問題。
  • 它提供了一種在數據庫中運行轉換的優化方式。
  • 它提供數據的快速恢復。

Q28:解釋 ETL 循環的 3 層架構。

ETL 循環由以下 3 層組成:

  1. 暫存層:該層存儲從多個數據結構中提取的數據。
  2. 數據集成層:來自暫存層的數據在集成層的幫助下傳輸到數據庫中。 然後,這些數據被組織成分層組,也稱為維度、聚合和事實。 維度和事實共同構成模式。
  3. 訪問層:最終用戶通過訪問層訪問數據並進行數據分析。

Q29:什麼是數據清除?

數據清除是從數據存儲中永久刪除數據的方法。 它與數據刪除不同,因為數據刪除只是暫時刪除數據,而數據清除是永久刪除數據,空閒空間用於其他目的。 數據清除採用不同的方法。 如果需要,可以歸檔清除的數據。

Q30:定義項目中的測試階段。

ETL 測試包括五個階段,如下所述:

  1. 需求和數據源識別
  2. 數據採集
  3. 業務邏輯的實現
  4. 數據構建和發布
  5. 報告

另請查看:數據科學與大數據:數據科學與大數據之間的區別

加起來

這些是最常見的數據倉庫面試問題,肯定會幫助你準備下一次面試。 如果您想了解更多關於數據倉庫的知識,那麼您可以訪問upGrad並獲得更深入的知識。 您可以找到有助於正確理解數據倉庫面試問題的相關信息

如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃是為在職專業人士創建的,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1與行業導師一對一,400 多個小時的學習和頂級公司的工作協助。

我如何開始數據倉庫的職業生涯?

由於每個組織越來越多地收集和使用數據,因此數據倉庫已成為一種需求旺盛的工作職位。 每個組織都在尋找能夠處理數據並將其轉化為可操作的見解的專業人員,以便從數據中獲得見解。

進入數據倉庫的一些必要技能是:

1. 一流的研究、解決問題和分析能力。
2. 計算機科學或任何其他相關領域(如 IT)的學士學位。
3. 正確了解關係數據庫理論
4. 3-5年數據庫系統工作經驗
5. 有數據建模和架構工作經驗
6. 指揮口頭和書面交流。
7. 善於傾聽了解技術人員和非技術人員提供的信息

這些是在數據倉庫領域建立職業生涯所需的一些技能。

我如何開始數據倉庫的職業生涯?

在數據倉庫領域建立自己的職業生涯需要滿足某些要求。

1.首先,任何個人都需要擁有計算機科學或相關領域的學士學位。
2. 至少 2 年的 SQL Server 編碼和管理經驗很重要。
3. 了解服務器集成和使用ETL工具
4. 正確了解數據倉庫和數據建模技術
5. MS辦公基本技能

參加課程可以使整個過程對您來說非常簡單。 不同的大學和平台提供了大量的數據庫管理和數據庫管理培訓課程。 稍後,您可以從事入門級工作以獲取經驗並了解該領域的來龍去脈。

任何公司的數據倉庫都有哪些不同階段?

根據公司規模、年齡和行業,數據倉庫的階段將在下面提到的四個範圍內。

1.離線數據庫
2.離線數據倉庫
3.實時數據倉庫
4. 集成數據倉庫

每個公司都從第一階段開始,並試圖到達第四階段,將業務系統中的所有內容集成起來。 數據倉庫的正常運行可以使數據倉庫經理更容易分析數據並從中產生可操作的見解。