面向初學者和經驗豐富的前 28 名數據工程師面試問題和答案
已發表: 2020-03-11準備面試但不知道怎麼做? 您可以從我們的數據工程師面試問題和答案列表開始。
數據工程師面試是最難破解的面試之一。 你應該知道的太多了。 但請不要擔心,因為我們的面試問題清單會在這方面為您提供幫助。 瀏覽完此列表後,您就會知道招聘人員可能會問的許多突出問題的答案。 此外,此列表將使您了解在準備面試時應該學習和學習的內容。
讓我們開始吧。
頂級數據工程師面試問答
Q.1 – 什麼是數據工程?
數據工程是一種用於開發和設計信息系統的軟件工程方法。 它側重於數據的收集和分析。 雖然數據科學家使用大數據執行各種任務,但之前必須有人收集所有這些數據,然後由數據工程師執行該任務。 數據工程師還負責數據庫的開發和維護。 數據工程師將原始數據轉換為可用數據。
Q.2 – 您對數據建模的理解是什麼?
當您為信息系統創建數據模型以便跟踪其數據時,這稱為數據建模。 這些數據模型成為 DB(數據庫)中的表。 例如,如果你想分析你的客戶行為,你數據庫中的每個客戶都是一個數據模型。 它是與規則相關的數據值的概念表示。
Q.3 – 什麼是 Hadoop?
Hadoop 是實用程序的開源軟件集合,允許您使用多台計算機網絡來解決與大數據相關的問題。 它具有各種組件,可讓您處理大量數據。 Hadoop 的開發者是 Apache 基金會。 其廣泛的實用程序和組件集合允許您高效地執行許多強大的大數據應用程序。
Q.4 – Hadoop 有哪些不同的組件?
Hadoop主要由4個組件組成,分別是HDFS、MapReduce、YARN和Hadoop Common。
HDFS是存儲Hadoop所有數據的文件系統。 它作為分佈式存儲系統具有高帶寬。
MapReduce 處理大量數據; YARN 是 Hadoop 的資源管理器,並相應地分配所需的資源。 Hadoop Common 是一組可以在 Hadoop 中使用的庫和實用程序。
Q.5 – HDFS 代表什麼?
HDFS 是一個 Hadoop 組件。 HDFS 代表 Hadoop 分佈式文件系統。
Q.6 – 什麼是 NameNode?
NameNode 是 HDFS 中數據存儲的一部分,用於跟踪集群中存在的不同文件。 NameNodes 不存儲數據。 它們存儲 DataNodes 的元數據,HDFS 存儲其實際數據。
Q.7 – 非結構化數據和結構化數據有什麼區別?
系統將非結構化數據存儲在非託管文件結構中,而結構化數據的存儲是 DBMS。 結構化數據的模式縮放具有挑戰性,但使用非結構化數據很容易做到。 您可以將 ELT(提取、轉換和加載)用於結構化數據。 另一方面,您需要執行批處理或數據輸入。
Q.8 – 數據建模中有多少種設計模式? 這些是什麼?
數據建模中有兩種設計模式,分別是:雪花模式和星型模式。
Q.9 – 當 Block Scanner 發現損壞的數據塊時會發生什麼? 解釋。
這是流行的數據工程師面試問題之一。 所以一定要在Block Scanner發現損壞的數據塊之前做好準備,DataNode會報告給NameNode。 然後,NameNode 開始使用其現有模型之一製作損壞塊的副本。 如果系統不刪除損壞的數據塊,它會創建與復制因子一樣多的副本。 複製計數必須相同。
Q.10 – 命名 Hadoop 中存在的所有 XML 配置文件。
Hadoop 中的 XML 配置文件有 HDFS-site、Mapred-site、Yarn-site 和 Core-site。
Q.11 – HDFS 中的塊是什麼? 什麼是塊掃描儀?
在 Hadoop 中,塊是數據的最小單位。 塊掃描器是檢查和驗證 DataNode 上存在的塊的組件。 Hadoop 將大數據文件分成小數據塊以便於存儲。
Q.12- DataNode 向 NameNode 發送什麼消息?
DataNodes 向 NameNodes 發送信號以通知它們它們正在工作。 這些信號的名稱是心跳。 如果一個 DataNodes 未能發送心跳,NameNode 確定它已經死亡並停止運行。
Q.13 – 陳述大數據的中心 V。
大數據的四個中心 V 是 Velocity、Variety、Volume 和 Veracity。
Q.14 – COSHH 是什麼意思?
COSHH 代表基於分類和優化的異構 Hadoop 系統調度。
Q.15 – 你能描述一下星型模式嗎?
星型模式的結構類似於星型; 這就是它得名的原因。 星形的中心可以有一個事實表,其中包含與之關聯的各種維度表。 數據工程師使用它來查詢大量數據集。
Q.16 – 什麼是雪花模式?
雪花模式是星型模式的一種形式。 唯一的區別是,它有額外的維度,它的名字來源於它的雪花狀結構。 它具有規範化的維度表,因此它具有其他表。
Q.17- Hadoop中Reducer的核心方法是什麼?
Reducer 中有幾個核心方法。 第一個是 setup() 配置參數,cleanup() 清理臨時數據集,Reducer 對每個 reduce 任務運行 reduce() 方法。

Q.18 – 什麼是 FSCK?
FSCK 代表文件系統檢查。 它是 HDFS 的一個命令,它使用這個命令來檢測文件中的問題和不一致。
Q.19 – Hadoop 是否有多種模式? 如果是這樣,它們是什麼?
是的,Hadoop 具有三種不同的模式。 它們是:獨立模式、完全分佈式模式和偽分佈式模式。
Q.20 – YARN 代表什麼?
YARN 代表又一個資源談判者。
Q.21 – 您如何保護 Hadoop?
為此,您將首先啟用靜態和傳輸中的加密。 您需要使用在 Hadoop 中使用的協議的安全版本。 您將允許 SASL 保護 RPC 數據。 您可以通過 hadoop.rpc.protection 屬性啟用 SASL。
您還將保護身份驗證通道。 客戶端可以使用身份驗證通道的時間戳來獲取服務票證,然後您可以將其用於自我身份驗證。
Q.22 – 您能詳細介紹一下 HDFS(Hadoop 分佈式文件系統)嗎?
Hadoop 能夠處理分佈式文件系統,例如 FS、HFTP 和 S3。 Google 文件系統是 HDFS 的基礎,它可以運行在由小型系統組成的大型集群上。
Q.23 – Snowflake 和 Star Schema 有什麼區別?
在星型模式中,您有更高的數據冗餘機會,而雪花模式則不是這種情況。 Star schema 的 DB 設計比 Snowflake 更直接。 雪花模式的複雜連接減慢了它的多維數據集處理速度,而星型模式不會發生這種情況。
Q.24 – Hadoop 中的心跳是什麼?
在Hadoop中,有兩種節點,NameNode和DataNode。 NameNode 負責存儲 DataNode 的元數據並跟踪它們的狀態。 DataNode 向 NameNode 發送信號以通知它們它們還活著並且正在工作。 這個信號就是心跳。
Q.25 – 您對大數據的理解是什麼?
當您擁有大量無法使用傳統方法處理的非結構化和結構化數據時,稱為大數據。 大數據是分析和使用高度複雜的數據集來收集信息的領域。 傳統的數據分析方法不能很好地處理如此大量的複雜數據。 在大數據中,數據工程師的任務是分析原始數據並將其轉換為可用數據。
Q.26 – 數據工程師應該知道哪些科目和編程語言?
數據工程師應該了解趨勢分析、機器學習、SQL、Hive QL、概率、回歸和線性代數。 數據工程師可以知道許多其他學科,但這些是必須的。
Q.27 – Hadoop 中的 DAS 和 NAS 有什麼區別?
這是最流行的數據工程師面試問題之一,所以要特別注意它的答案。 DAS 代表直接附加存儲,NAS 代表網絡附加存儲。 NAS 的存儲容量為 10^9 到 10^12 字節。 另一方面,DAS 的存儲容量為 10^9 字節。 NAS的管理成本也遠低於DAS。
Q.28 – Hadoop 中節點之間的距離是什麼意思? 你會怎麼計算呢?
在 Hadoop 中,兩個節點之間的距離等於到它們最近節點的長度之和。 您可以使用 getDistance() 來查找 Hadoop 中兩個節點之間的距離。
學習世界頂尖大學的數據科學課程。 獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
結論
在這些面試問題的幫助下,我們相信你會很容易地做好準備。 數據工程面試不必有壓力。 確保你在會議前有足夠的睡眠,很多人會太著急。
如果您對數據工程或面試有任何疑問,請隨時向我們提問。 我們很樂意為您提供幫助。
數據工程師的任務和職責是什麼?
對於數據工程師來說,他們的主要職責是為分析或操作目的準備數據。 作為 IT 行業的一部分,這些工程師創建了連接來自多個源系統的數據的數據管道。 他們在構建數據以用於分析應用程序之前組合、整合和淨化數據。 大多數公司的分析團隊由數據工程師和數據科學家組成,他們使數據更易於訪問並最大限度地利用公司的大數據環境。 工程師將可用格式的數據提供給數據科學家,他們使用這些信息來執行預測分析、機器學習和數據挖掘應用程序的查詢和算法。
作為數據工程師需要具備哪些技能?
數據庫系統的開發和管理知識是數據工程師必備的。 熟練掌握SQL、Python、R等編程語言,對機器學習和算法有基本的了解。 數據工程師還應該了解倉儲解決方案和 ETL(提取、傳輸、加載)工具。 數據科學是一門高度協作的學科,數據工程師與各種利益相關者合作,從數據分析師到首席技術官。 因此,軟技能,如良好的溝通能力和高度的合作能力,應該是每個數據工程師技能組合的一部分。
數據工程是一條好的職業道路嗎? 數據工程師平均能掙多少錢?
根據 Dice 2020 技術工作報告,數據工程是 2019 年技術領域增長最快的職業選擇,可用機會數量同比增長 50%。 隨著對信息管理需求的增長,它在技術世界中越來越重要,並已成為一種有利可圖的職業選擇。 入門級工資為 4,57,532 盧比,數據工程師的工資隨著經驗年限的增加而上漲。 具有 1-4 年經驗的數據工程師的平均工資為 7,20,395 盧比,而具有 5-9 年經驗的職業中期數據工程師和具有 10-19 年經驗的經驗豐富的數據工程師的平均總收入為 ₹分別為 12,94,336 和 18,67,992 盧比。