數據科學面試問答 - 15 個最常見的問題

已發表: 2019-07-08

工作面試總是很棘手。要成功通過面試，你不僅要具備深厚的學科知識，還要有自信和強大的心態。如果您正在為數據科學做準備，這一點尤其正確——它會讓您的所有能力都受到考驗！

在數據科學面試中，你將不得不面對從基本數據科學問題到統計、數據分析、機器學習和深度學習等不同主題的大量問題。但這還不是全部——您的軟技能（溝通、團隊合作等）也將受到考驗。

為了簡化您的準備過程，我們整理了 15 個最常見的數據科學面試問題列表。我們將從基礎開始，然後轉到更高級的主題和問題。

所以，事不宜遲，讓我們開始吧！

什麼是數據科學？ 監督和無監督機器學習有何不同？

簡而言之，數據科學是對數據的研究。它涉及從不同來源收集數據，對其進行存儲、清理和組織，並對其進行分析以從中發現有意義的信息。數據科學結合了數學、統計計算機科學、機器學習、數據可視化、聚類分析和數據建模。它旨在從原始數據（結構化和非結構化）中獲得有價值的見解，並利用這些見解對業務和 IT 戰略產生積極影響。這些想法可以幫助企業優化流程、提高生產力和收入、簡化營銷策略、提高客戶滿意度等等。

監督機器學習和無監督機器學習在以下方面彼此不同：

在有監督的 ML 中，輸入數據被標記。在無監督機器學習中，輸入數據仍未標記。
監督機器學習使用訓練數據集，無監督機器學習使用輸入數據集。
監督機器學習用於預測目的，而無監督機器學習用於分析目的。
有監督的 ML 支持分類和回歸。然而，無監督機器學習可以實現分類、密度估計和降維。

Python 或 R – 哪個更適合文本分析？

在文本分析方面，Python 似乎是最合適的選擇。這是因為它帶有 Pandas 庫，其中包括用戶友好的數據結構和高性能數據分析工具。此外，Python 對於各種文本分析任務來說都是高效且快速的。至於 R，它最適合機器學習應用程序。

Python 支持哪些數據類型？

Python 有一系列內置數據類型，包括：

布爾值
數字（整數、長整數、浮點數、複數）
序列（列表、字符串、字節、元組）
套
映射（字典）
文件對象

有哪些不同的分類算法？

關鍵的分類算法是線性分類器（邏輯回歸、樸素貝葉斯分類器）、決策樹、提升樹、隨機森林、SVM、核估計、神經網絡和最近鄰。

什麼是正態分佈？

通常，數據以各種方式分佈，要么偏左要么偏右，或者在少數情況下，它可能會變得混亂。但是，可能存在數據圍繞中心值分佈而沒有任何向左或向右偏差的情況，從而獲得鐘形曲線形式的正態分佈。

資源

該曲線以對稱的鐘形曲線的形式描繪了隨機變量的分佈。

A/B 測試的重要性是什麼？

A/B 測試是對涉及兩個變量 A 和 B 的隨機實驗的統計假設測試。A/B 測試有助於識別對網頁所做的任何更改或更改，以最大化感興趣的結果。這是為企業確定最佳在線促銷和營銷策略的絕佳方法。

什麼是選擇偏差？

選擇偏差是當研究人員決定要研究的樣本時發生的“主動”錯誤。在這種情況下，樣本數據被收集並準備用於數據建模，但它具有不能真正代表模型將考慮的未來案例群體的特徵。當樣本數據的一個子集被系統地選擇並包含/排除在數據分析之外時，就會發生選擇偏差。存在三種不同類型的選擇偏差：

抽樣偏差：當數據集的非隨機樣本導致數據集中的某些成員不太可能包含在研究中，從而導致樣本有偏差時發生的系統誤差。
時間間隔：當數據分析試驗在極值處提前終止時發生。但是，具有最大方差的變量更有可能獲得極值（即使所有變量都具有相似的均值）。
減員：由於減員折扣或在完成前終止的試驗期間參與者流失而發生。

什麼是線性回歸？ 線性回歸需要哪些假設？

線性回歸是一種用於預測分析的統計工具。在此方法中，變量（例如 Y）的得分是根據另一個變量（例如 X）的得分來預測的。這裡，Y 是標準變量，而 X 是預測變量。

在線性回歸中，有四個基本假設：

因變量和回歸變量之間存在線性關係。因此，創建的數據模型將與數據同步。
數據的殘差是相互獨立的並且是分佈的。
解釋變量之間存在最小的多重共線性。
存在“同方差性”，這意味著回歸線周圍的方差對於預測變量的所有值都是相同的。

什麼是交叉驗證？

交叉驗證是一種用於模型驗證的過程。 這裡的目的是在訓練階段使用驗證數據集來測試模型，以限製過度擬合等問題，當然，還要確定模型將如何推廣到獨立數據集。

交叉驗證 (CV) 是一種模型驗證技術，用於測試機器學習模型的有效性。它也是一種在數據有限的情況下用於評估模型的重採樣方法。在交叉驗證方法中，保留一部分數據用於測試和驗證，並用於確定統計分析的結果將如何推廣到獨立數據集。

什麼是二項式概率公式？

二項式概率分佈考慮了獨立事件的 N 次試驗中每個可能的成功次數的概率，每個試驗都具有 π (pi) 的發生概率。二項式概率分佈的公式是：

單變量、雙變量和多變量分析有什麼區別？

單變量分析是指描述性統計分析技術，可以根據在特定時間點所涉及的變量數量進行區分（例如，描述產品在特定地區的銷售情況的餅圖）。與此相反，雙變量分析旨在一次了解和確定兩個變量之間的差異，就像在散點圖中一樣（例如，銷售量和支出之間的關係）。

多變量分析涉及對兩個以上變量的研究，以了解變量對響應/結果的影響。

什麼是人工神經網絡？

通俗地說，人工神經網絡（ANN）是指仿照人腦設計的計算系統。 就像人腦一樣，人工神經網絡由許多簡單的處理元素組成，稱為人工神經元，其功能受到動物神經元的啟發。人工神經網絡可以從經驗中學習，並且可以適應不斷變化的輸入，這樣網絡就可以產生最好的結果，而無需重新設計輸出標準。

什麼是遞歸神經網絡 (RNN)？

循環神經網絡 (RNN) 是一種人工神經網絡，其中節點連接導致沿時間序列的有向圖，從而表現出時間動態行為。要了解 RNN，您必須首先了解前饋網絡的工作原理。前饋網絡以直線方式傳遞信息（不接觸同一節點兩次），而遞歸神經網絡通過類似循環的過程循環信息。與前饋神經網絡相反，RNN 可以使用其內部存儲器來處理輸入序列。因此，RNN 最適合未分段或連接的任務，例如手寫識別和語音識別。
前 17 名數據分析師面試問題和答案

什麼是反向傳播？

反向傳播是指用於訓練多層神經網絡的監督學習算法。通過反向傳播，誤差可以從網絡的一端轉移到網絡內的所有權重，從而允許有效地計算梯度。它使用梯度下降技術在權重空間中尋找誤差函數的最小值。最小化誤差函數的權重被認為是學習問題的解決方案。

反向傳播涉及以下步驟：
訓練數據的前向傳播。
使用輸出和目標計算導數。
反向傳播以計算誤差的導數。
使用先前計算的導數作為輸出。
計算更新的權重值並更新權重。

解釋梯度下降。

要了解梯度下降，您必須首先了解梯度是什麼。梯度是衡量特定函數的輸出相對於輸入的微小變化而變化的量度。它測量所有權重的變化以響應誤差的變化。因此，換句話說，梯度是函數的斜率。

梯度下降是一種優化算法，可幫助找到函數 (f) 的參數值（係數），該函數 (f) 使成本函數 (cost) 最小化。它最適合無法解析計算參數的情況。

結論

在結束語中，您必須知道沒有單一或最好的方式來準備面試。這完全取決於你的知識基礎、你的信心和方法，以及一點運氣。雖然這些只是少數數據科學問題，但我們確實希望這能讓您大致了解在數據科學面試中可能會被問到的問題類型。也就是說，做好充分的準備，祝你一切順利！

學習世界頂尖大學的數據科學課程。 獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

在數據科學面試中，有幾輪？

可能需要一到兩輪編程面試，但這完全取決於你申請的公司。一些公司使面試過程持續多達六輪。您可以通過研究最常見的問題，列出最常見和最棘手的問題，然後在面試前分析這些問題來準備每個問題的回答。

數據科學面試官尋找的品質是什麼？

要在數據科學面試中取得好成績，您需要了解很多關於算術、統計學、編程語言、商業智能基礎知識，當然還有機器學習技術。你肯定會被要求展示你的數據能力如何與公司的選擇和戰略相關聯。在當今市場上，幾乎所有數據科學工作都需要進行編碼面試。數據科學家的角色包括在許多公司發布生產代碼，例如數據管道和機器學習模型。對於這種性質的項目，還需要很強的編程能力，所以面試中也可以期待一些 SQL 和 Python 問題。

我可以通過 LinkedIn 獲得數據科學家的工作嗎？

如今，人們不應忽視 LinkedIn 的力量。 LinkedIn 基本上是您的數字簡歷。公司和招聘人員一直在 LinkedIn 上尋找合適的候選人，因此建立令人印象深刻的 LinkedIn 個人資料、繼續尋找工作並在 LinkedIn 上申請職位空缺對您來說非常重要。將相關技能添加到您的個人資料中，並繼續添加您的所有專業成就。這樣，您從 LinkedIn 獲得一份值得的數據科學工作的機會就很高。