2022 年必須知道的 35 個大數據面試問題和答案:適合應屆生和有經驗的人
已發表: 2021-01-05參加大數據面試,想知道您將經歷哪些問題和討論? 在參加大數據面試之前,最好先了解一下大數據面試問題的類型,以便在心理上為它們準備答案。
為了幫助您,我創建了頂級大數據面試問題和答案指南,以了解大數據面試問題的深度和真實意圖。
你不會相信這個項目如何改變了學生的職業生涯
我們正處於大數據和分析的時代。 隨著數據為我們周圍的一切提供動力,對熟練數據專業人員的需求突然激增。 組織總是在尋找能夠幫助他們理解大量數據的高技能人才。
這裡的關鍵詞是“技能提升”,因此大數據面試並不是小菜一碟。 在參加大數據面試之前,您必須了解一些基本的大數據面試問題。 這些將幫助您找到解決方法。
這些問題的排列順序將幫助您從基礎知識中學習並達到一定程度的高級水平。
大數據面試問答
1. 定義大數據並解釋大數據的 Vs。

這是最具介紹性但最重要的大數據面試問題之一。 答案很簡單:
大數據可以定義為複雜的非結構化或半結構化數據集的集合,這些數據集有可能提供可操作的見解。
大數據的四個 V 是——
Volume –談論數據量
多樣性——談論各種數據格式
速度——談論數據增長的不斷增加的速度
真實性——談論可用數據的準確程度
初學者大數據教程:所有你需要知道的
2. Hadoop與大數據有什麼關係?
當我們談論大數據時,我們談論的是 Hadoop。 所以,這是你在面試中肯定會遇到的另一個大數據面試問題。
Hadoop 是一個開源框架,用於存儲、處理和分析複雜的非結構化數據集,以獲取洞察力和智能。
3.定義HDFS和YARN,說說各自的組件。
現在我們處於 Hadoop 領域,您可能面臨的下一個大數據面試問題將圍繞著同樣的問題展開。
HDFS 是 Hadoop 的默認存儲單元,負責在分佈式環境中存儲不同類型的數據。
HDFS 有以下兩個組件:
NameNode –這是主節點,擁有 HDFS 中所有數據塊的元數據信息。
DataNode -這些是充當從節點並負責存儲數據的節點。
YARN 是 Yet Another Resource Negotiator 的縮寫,負責管理資源並為上述流程提供執行環境。
YARN 的兩個主要組成部分是——
ResourceManager –負責根據需要為各個 NodeManager 分配資源。
NodeManager –在每個 DataNode 上執行任務。
您需要注意的 7 個有趣的大數據項目
4. 商品硬件是什麼意思?
這是您在參加的任何面試中最有可能遇到的另一個大數據面試問題。
商品硬件是指運行 Apache Hadoop 框架所需的最少硬件資源。 任何支持 Hadoop 最低要求的硬件都稱為“商品硬件”。
5. 定義和描述術語 FSCK。
FSCK 代表文件系統檢查。 它是用於運行描述 HDFS 狀態的 Hadoop 摘要報告的命令。 它只檢查錯誤而不糾正錯誤。 此命令可以在整個系統或文件子集上執行。
6. Hadoop中JPS命令的作用是什麼?
JPS 命令用於測試所有 Hadoop 守護程序的工作。 它專門測試諸如 NameNode、DataNode、ResourceManager、NodeManager 等守護進程。
(在任何大數據採訪中,你都可能會發現一個關於 JPS 及其重要性的問題。)
大數據:必須了解的工具和技術
7. 命名用於啟動和關閉 Hadoop 守護程序的不同命令。
這是最重要的大數據面試問題之一,可幫助面試官評估您對命令的了解。
啟動所有守護進程:
./sbin/start-all.sh
要關閉所有守護程序:
./sbin/stop-all.sh
8. 為什麼我們需要 Hadoop 進行大數據分析?
這個 Hadoop 面試問題測試您對大數據和分析的實際方面的認識。
在大多數情況下,Hadoop 有助於探索和分析大型非結構化數據集。 Hadoop 提供有助於分析的存儲、處理和數據收集功能。
9. 解釋 Hadoop 的不同特性。
在許多大數據面試問答中列出,對此的最佳答案是——
開源——Hadoop 是一個開源平台。 它允許根據用戶和分析要求重寫或修改代碼。
可擴展性——Hadoop 支持向新節點添加硬件資源。
數據恢復 – Hadoop 遵循複製,允許在發生任何故障時恢復數據。
數據局部性——這意味著 Hadoop 將計算轉移到數據上,而不是反過來。 這樣,整個過程加快了。
10. 定義 NameNode、Task Tracker 和 Job Tracker 的端口號。
NameNode –端口 50070
任務跟踪器 –端口 50060
作業跟踪器 -端口 50030
11. HDFS 中的索引是什麼意思?
HDFS 根據數據塊的大小索引數據塊。 數據塊的末尾指向存儲下一塊數據塊的地址。 DataNode 存儲數據塊,而 NameNode 存儲這些數據塊。
流行文化中的大數據應用
12. Hadoop 中的邊緣節點是什麼?
邊緣節點是指網關節點,充當 Hadoop 集群和外部網絡之間的接口。 這些節點運行客戶端應用程序和集群管理工具,也用作暫存區。 邊緣節點需要企業級存儲能力,單個邊緣節點通常足以滿足多個 Hadoop 集群的需求。
13. Hadoop 中的邊緣節點使用了哪些數據管理工具?
這個大數據面試問題旨在測試您對各種工具和框架的認識。
Oozie、Ambari、Pig 和 Flume 是與 Hadoop 中的邊緣節點一起使用的最常見的數據管理工具。
14.解釋Reducer的核心方法。
一個reducer的核心方法有3種。 他們是-
setup() –這用於配置不同的參數,如堆大小、分佈式緩存和輸入數據。
reduce() -每個鍵調用一次的參數,相關的 reduce 任務
cleanup() –清除所有臨時文件並僅在 reducer 任務結束時調用。
15. 談談在 HBase 中用於刪除目的的不同墓碑標記。
這個大數據面試問題深入探討了您對 HBase 及其工作的了解。
HBase 中有三個主要的墓碑標記用於刪除。 他們是-
族刪除標記 -用於標記列族的所有列。
版本刪除標記 -用於標記單個列的單個版本。
列刪除標記 -用於標記單個列的所有版本。
大數據工程師:神話與現實
16. 大數據如何為企業增值?
最常見的大數據面試問題之一。 在目前的情況下,大數據就是一切。 如果您有數據,那麼您將擁有最強大的工具。 大數據分析可幫助企業將原始數據轉化為有意義且可操作的洞察力,從而塑造其業務戰略。 大數據對業務最重要的貢獻是數據驅動的業務決策。 大數據使組織可以根據有形的信息和見解做出決策。
此外,預測分析允許公司為不同的買家角色制定定制的建議和營銷策略。 大數據工具和技術共同幫助增加收入、簡化業務運營、提高生產力並提高客戶滿意度。 事實上,今天沒有利用大數據的任何人都將失去大量機會。
17. 您如何部署大數據解決方案?
您可以通過三個步驟部署大數據解決方案:
- 數據攝取——這是部署大數據解決方案的第一步。 您首先從多個來源收集數據,無論是社交媒體平台、日誌文件、業務文檔,還是與您的業務相關的任何內容。 可以通過實時流或批處理作業提取數據。
- 數據存儲– 提取數據後,您必須將數據存儲在數據庫中。 它可以是 HDFS 或 HBase。 雖然 HDFS 存儲非常適合順序訪問,但 HBase 非常適合隨機讀/寫訪問。
- 數據處理——部署解決方案的最後一步是數據處理。 通常,數據處理是通過 Hadoop、Spark、MapReduce、Flink 和 Pig 等框架完成的。
18. NFS 與 HDFS 有何不同?

網絡文件系統 (NFS) 是最古老的分佈式文件存儲系統之一,而 Hadoop 分佈式文件系統 (HDFS) 直到最近在大數據熱潮之後才成為人們關注的焦點。
下表突出顯示了 NFS 和 HDFS 之間的一些最顯著差異:
NFS | 高密度文件系統 |
它既可以存儲也可以處理少量數據。 | 它明確設計用於存儲和處理大數據。 |
數據存儲在專用硬件中。 | 數據被劃分為分佈在硬件本地驅動器上的數據塊。 |
在系統故障的情況下,您無法訪問數據。 | 即使在系統故障的情況下也可以訪問數據。 |
由於 NFS 在單台機器上運行,因此沒有機會實現數據冗餘。 | HDFS 在機器集群上運行,因此復制協議可能會導致數據冗餘。 |
19.列出HDFS中文件或目錄級別的不同文件權限。
常見的大數據面試題之一。 Hadoop 分佈式文件系統 (HDFS) 對文件和目錄具有特定的權限。 HDFS 中有三個用戶級別——所有者、組和其他。 對於每個用戶級別,都有三個可用權限:
- 讀(r)
- 寫(w)
- 執行(x)。
這三個權限僅適用於文件和目錄。
對於文件——
- r 權限用於讀取文件
- w 權限用於寫入文件。
儘管有執行(x)權限,但您不能執行 HDFS 文件。
對於目錄 -
- r 權限列出特定目錄的內容。
- w 權限創建或刪除目錄。
- X 權限用於訪問子目錄。
20. 詳細說明覆蓋 HDFS 中復制因子的過程。
在 HDFS 中,有兩種方法可以覆蓋複製因子——基於文件和基於目錄。
基於文件
在這種方法中,複製因子根據使用 Hadoop FS shell 的文件而變化。 以下命令用於此目的:
$hadoop fs –setrep –w2/my/test_file
這裡,test_file 指的是複制因子將設置為 2 的文件名。
基於目錄
此方法根據目錄更改複製因子,因此特定目錄下所有文件的複制因子都會更改。 以下命令用於此目的:
$hadoop fs –setrep –w5/my/test_dir
這裡,test_dir 是指複製因子和其中包含的所有文件將設置為 5 的目錄的名稱。
21. 說出可以運行 Hadoop 的三種模式。
任何大數據面試中最常見的問題之一。 三種模式是:
- 獨立模式——這是 Hadoop 的默認模式,它使用本地文件系統進行輸入和輸出操作。 獨立模式的主要目的是調試。 它不支持 HDFS,也缺少 mapred-site.xml、core-site.xml 和 hdfs-site.xml 文件所需的自定義配置。
- 偽分佈式模式- 也稱為單節點集群,偽分佈式模式包括同一台機器內的 NameNode 和 DataNode。 在這種模式下,所有 Hadoop 守護進程都將在單個節點上運行,因此主節點和從節點是相同的。
- 完全分佈式模式——這種模式被稱為多節點集群,其中多個節點同時運行以執行Hadoop作業。 在這裡,所有 Hadoop 守護進程都運行在不同的節點上。 所以,主節點和從節點是分開運行的。
22.解釋“過度擬合”。
過擬合是指當函數被一組有限的數據點緊密擬合(影響)時發生的建模錯誤。 過度擬合會導致模型過於復雜,從而進一步難以解釋手頭數據中的特殊性或特質。 由於它對模型的泛化能力產生不利影響,因此確定過擬合模型的預測商變得具有挑戰性。 這些模型在應用於外部數據(不屬於樣本數據的數據)或新數據集時無法執行。
過度擬合是機器學習中最常見的問題之一。 當一個模型在訓練集上表現更好但在測試集上慘遭失敗時,它被認為是過度擬合的。 但是,有很多方法可以防止過擬合問題,例如交叉驗證、剪枝、提前停止、正則化和組裝。
23.什麼是特徵選擇?
特徵選擇是指從特定數據集中僅提取所需特徵的過程。 從不同來源提取數據時,並非所有數據都始終有用——不同的業務需求需要不同的數據洞察力。 這是特徵選擇的用武之地,用於識別和選擇與特定業務需求或數據處理階段相關的那些特徵。
特徵選擇的主要目標是簡化 ML 模型,使其分析和解釋更容易。 特徵選擇增強了模型的泛化能力並消除了維數問題,從而防止了過度擬合的可能性。 因此,特徵選擇可以更好地理解所研究的數據,提高模型的預測性能,並顯著減少計算時間。
特徵選擇可以通過三種技術完成:
- 過濾器方法
在這種方法中,選擇的特徵不依賴於指定的分類器。 變量排名技術用於為排序目的選擇變量。 在分類過程中,變量排序技術考慮了特徵的重要性和有用性。 卡方檢驗、方差閾值和信息增益是過濾器方法的一些示例。
- 包裝方法
在這種方法中,用於特徵子集選擇的算法作為歸納算法的“包裝器”存在。 歸納算法的功能就像一個“黑匣子”,它產生一個分類器,該分類器將進一步用於特徵分類。 包裝方法的主要缺點或限制是,要獲得特徵子集,您需要執行繁重的計算工作。 遺傳算法、順序特徵選擇和遞歸特徵消除是包裝器方法的示例。
- 嵌入式方法
嵌入式方法結合了兩全其美——它包括過濾器和包裝器方法的最佳特性。 在此方法中,變量選擇是在訓練過程中完成的,因此您可以識別對給定模型最準確的特徵。 L1 正則化技術和嶺回歸是嵌入式方法的兩個流行示例。
24. 定義“異常值”。
異常值是指與隨機樣本中的其他值有異常距離的數據點或觀察值。 換句話說,離群值是遠離組的值; 它們不屬於數據集中的任何特定集群或組。 異常值的存在通常會影響模型的行為——它們會誤導 ML 算法的訓練過程。 異常值的一些不利影響包括更長的訓練時間、不准確的模型和糟糕的結果。
但是,異常值有時可能包含有價值的信息。 這就是為什麼必須對它們進行徹底調查並進行相應處理的原因。
25. 列舉一些異常值檢測技術。
再次,最重要的大數據面試問題之一。 以下是六種異常值檢測方法:
- 極值分析——此方法確定數據分佈的統計尾部。 單變量數據上的“z 分數”等統計方法是極值分析的完美示例。
- 概率和統計模型——這種方法從數據的“概率模型”中確定“不太可能的實例”。 一個很好的例子是使用“期望最大化”來優化高斯混合模型。
- 線性模型——這種方法將數據建模為較低的維度。 基於鄰近的模型——在這種方法中,與數據組隔離的數據實例由集群、密度或最近鄰分析確定。
- 信息論模型——這種方法旨在將異常值檢測為增加數據集複雜性的不良數據實例。
- 高維異常值檢測——此方法根據更高維度的距離度量來識別異常值的子空間。
26. 解釋 Hadoop 中的機架感知。
機架意識是流行的大數據面試問題之一。 Rach 感知是一種算法,它根據機架信息識別和選擇離 NameNode 更近的 DataNode。 它應用於 NameNode 以確定如何放置數據塊及其副本。 在安裝過程中,默認假設所有節點屬於同一個機架。
機架意識有助於:
- 提高數據的可靠性和可訪問性。
- 提高集群性能。
- 提高網絡帶寬。
- 盡可能將散裝流量保持在機架中。
- 在機架完全故障的情況下防止數據丟失。
27. NameNode宕機後能恢復嗎? 如果是這樣,怎麼做?
是的,當 NameNode 宕機時可以恢復它。 以下是您的操作方法:
- 使用 FsImage(文件系統元數據副本)啟動一個新的 NameNode。
- 與客戶端一起配置 DataNode,以便它們可以確認和引用新啟動的 NameNode。
- 當新創建的 NameNode 完成加載 FsImage 的最後一個檢查點(現在已經從 DataNode 接收到足夠的塊報告)加載過程時,它將準備好開始為客戶端服務。
但是,NameNode 的恢復過程僅適用於較小的集群。 對於大型 Hadoop 集群,恢復過程通常會消耗大量時間,從而使其成為一項頗具挑戰性的任務。
28. 命名 MapReduce 框架的配置參數。
MapReduce 框架中的配置參數包括:
- 數據的輸入格式。
- 數據的輸出格式。
- 分佈式文件系統中作業的輸入位置。
- 分佈式文件系統中作業的輸出位置。
- 包含地圖功能的類
- 包含reduce函數的類
- 包含映射器、reducer 和驅動程序類的 JAR 文件。
29. 什麼是分佈式緩存? 它有什麼好處?
沒有這個問題,任何大數據面試問答指南都不會完整。 Hadoop 中的分佈式緩存是 MapReduce 框架提供的用於緩存文件的服務。 如果為特定作業緩存文件,Hadoop 會使其在內存和同時執行 map 和 reduce 任務的系統中的各個 DataNode 上可用。 這允許您快速訪問和讀取緩存文件以填充代碼中的任何集合(如數組、哈希圖等)。
分佈式緩存提供以下好處:
- 它分發簡單的只讀文本/數據文件和其他復雜類型,如 jar、檔案等。
- 它跟踪緩存文件的修改時間戳,突出顯示在成功執行作業之前不應修改的文件。
30. Hadoop中的SequenceFile是什麼?
在 Hadoop 中,SequenceFile 是一個包含二進制鍵值對的平面文件。 它最常用於 MapReduce I/O 格式。 映射輸出在內部存儲為提供讀取器、寫入器和排序器類的 SequenceFile。
共有三種 SequenceFile 格式:
- 未壓縮的鍵值記錄
- 記錄壓縮的鍵值記錄(僅壓縮“值”)。
- 塊壓縮鍵值記錄(在這裡,鍵和值都分別收集在“塊”中,然後進行壓縮)。
31. 解釋 JobTracker 的作用。
常見的大數據面試題之一。 JobTracker 的主要功能是資源管理,本質上就是管理TaskTracker。 除此之外,JobTracker 還跟踪資源可用性並處理任務生命週期管理(跟踪任務的進度及其容錯)。
JobTracker 的一些關鍵特性是:
- 它是一個在單獨節點(而不是 DataNode)上運行的進程。
- 它與 NameNode 通信以識別數據位置。
- 它跟踪 MapReduce 工作負載的執行。
- 它根據可用槽分配 TaskTracker 節點。
- 它監控每個 TaskTracker 並將整體作業報告提交給客戶端。
- 它找到最佳 TaskTracker 節點以在特定節點上執行特定任務。
32. 命名 Hadoop 中常見的輸入格式。
Hadoop 具有三種常見的輸入格式:
- 文本輸入格式——這是 Hadoop 中的默認輸入格式。
- 序列文件輸入格式 - 此輸入格式用於按序列讀取文件。
- 鍵值輸入格式——這種輸入格式用於純文本文件(文件被分成幾行)。
33. Hadoop 中對數據局部性的需求是什麼?
重要的大數據面試題之一。 在 HDFS 中,數據集作為塊存儲在 Hadoop 集群的 DataNode 中。 當 MapReduce 作業正在執行時,各個 Mapper 處理數據塊(輸入拆分)。 如果數據不存在於 Mapper 執行作業的同一節點中,則必須將數據從其所在的 DataNode 通過網絡複製到 Mapper DataNode。
當一個 MapReduce 作業有超過一百個 Mapper 並且每個 Mapper DataNode 嘗試同時從集群中的另一個 DataNode 複製數據時,會導致網絡擁塞,從而對系統的整體性能產生負面影響。 這就是 Data Locality 進入場景的地方。 Data Locality 不是將大量數據移動到計算中,而是將數據計算移動到靠近實際數據駐留在 DataNode 上的位置。 這有助於提高系統的整體性能,而不會造成不必要的延遲。
34. Hadoop 中實現安全性的步驟是什麼?
在 Hadoop 中,使用 Kerberos(一種網絡身份驗證協議)來實現安全性。 Kerberos 旨在通過密鑰加密為客戶端/服務器應用程序提供強大的身份驗證。
當您使用 Kerberos 訪問服務時,您必須經曆三個步驟,每個步驟都涉及與服務器的消息交換。 步驟如下:
- 身份驗證——這是通過身份驗證服務器對客戶端進行身份驗證的第一步,之後將時間戳 TGT(Ticket Granting Ticket)提供給客戶端。
- 授權——在第二步中,客戶端使用 TGT 從 TGS(Ticket Granting Server)請求服務票證。
- 服務請求——在最後一步,客戶端使用服務票證向服務器驗證自己的身份。
35. 如何處理大數據中的缺失值?
我們的大數據面試問答指南中的最後一個問題。 缺失值是指列中不存在的值。 當觀察中的變量沒有數據值時,就會發生這種情況。 如果缺失值處理不當,勢必會導致錯誤的數據,進而產生錯誤的結果。 因此,強烈建議在處理數據集之前正確處理缺失值。 通常,如果缺失值的數量很少,則數據會被丟棄,但如果缺失值很多,則數據插補是首選的行動方案。
在統計學中,有不同的方法來估計缺失值。 這些包括回歸、多數據插補、列表/成對刪除、最大似然估計和近似貝葉斯引導。
結論
我們希望我們的大數據問答指南對您有所幫助。 我們將定期更新指南,讓您隨時了解最新情況。
如果您有興趣了解有關大數據的更多信息,請查看我們的 PG 大數據軟件開發專業文憑課程,該課程專為在職專業人士設計,提供 7 多個案例研究和項目,涵蓋 14 種編程語言和工具,實用的動手操作研討會,超過 400 小時的嚴格學習和頂級公司的就業幫助。
從世界頂級大學在線學習軟件開發課程。 獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。
