Logistic 回歸面試問題和答案 [適用於應屆生和有經驗者]

已發表: 2020-09-24

談到機器學習,更具體地說是分類,邏輯回歸可能是最直接和最廣泛使用的算法。 由於邏輯回歸非常易於理解和實現,因此該算法非常適合初學者和剛開始機器學習或數據科學之旅的人們。

儘管邏輯回歸這個名字聽起來像是人們可以用來實現回歸的算法,但事實遠非如此。 由於其細微差別,邏輯回歸更適合將實例實際分類為定義明確的類,而不是實際執行回歸任務。

簡而言之,該算法採用線性回歸輸出並在給我們結果之前應用激活函數。 邏輯回歸使用的激活函數是 sigmoid 函數(也稱為邏輯函數)。 遵循 sigmoid 函數的屬性,而不是提供連續值,它只是給出一個在 0 和 1 範圍內的數字。 設置閾值後,從邏輯回歸的輸出進行分類變得輕而易舉。

我們都知道數據科學和機器學習領域是如何發展的。 每天都在創造更多的機會。 因此,在這個競爭激烈的世界中,確保您擁有正確的知識是確保在您夢想的公司中獲得良好位置的關鍵。 為了幫助您完成這項工作,我們準備了一系列邏輯回歸面試問題,這些問題應該可以幫助您為成為專業數據科學家或機器學習專業人士的旅程做好準備。

目錄

邏輯回歸面試問答

Q1。 使用 TRUE 或 FALSE 回答。 邏輯回歸是一種監督機器學習算法嗎?

答。 是的,這個問題的答案是正確的,因為邏輯回歸確實是一種有監督的機器學習算法。 簡單的原因在於該算法的工作方式。 要從邏輯回歸中獲得輸出,您必須先為其提供數據。

您必須提供實例和這些實例的正確標籤,以便它能夠從中學習並做出準確的預測。 有監督的機器學習算法需要目標變量 (Y) 和用於提供輸入信息 (X) 的類實例或變量,以便能夠成功訓練和做出預測。

Q2。 使用 TRUE 或 FALSE 回答。 邏輯回歸主要用於分類嗎?

答。 是的,這個問題的答案是正確的。 事實上,邏輯回歸主要用於分類任務,而不是執行實際的回歸。 我們使用線性回歸進行回歸。 由於兩者的相似性,很容易混淆。 不要犯這個錯誤。 在邏輯回歸中,我們使用邏輯函數,它只不過是一個 sigmoid 激活函數,它使分類任務更加舒適。

Q3。 用 TRUE 或 FALSE 回答這個問題。 可以實現模仿邏輯回歸算法行為的神經網絡嗎?

答。 是的,答案是正確的。 神經網絡也稱為通用逼近器。 它們可以用來模仿幾乎任何機器學習算法。 換個角度來看,如果您使用的是 TensorFlow 2.0 的 Keras API,您所要做的就是在順序模型中添加一層,並使用 sigmoid 激活函數使這一層。

Q4。 使用 TRUE 或 FALSE 回答這個問題。 我們可以使用邏輯回歸來解決多類分類問題嗎?

答。 簡短的回答是正確的。 然而,冗長的答案會讓你想一想。 僅使用一個邏輯回歸模型是無法實現多類分類的。 您將需要使用具有 softmax 激活函數的神經網絡或使用複雜的機器學習算法來成功預測輸入變量的許多類別。

但是,有一種方法可以實際使用邏輯回歸來解決多類分類問題。 那將是使用一對多的方法。 您將需要訓練 n 個分類器(其中 n 是類的數量),每個分類器只預測一個類。 因此,在三類分類的情況下(假設為 A、B 和 C),您將需要訓練兩個分類器,一個預測 A 而不是 A,另一個預測 B 而不是 B,最後一個分類器預測 C 而不是 C。然後您必須將所有這三個模型的輸出整合在一起,以便能夠僅使用邏輯回歸進行多類分類。

Q5。 從下面的列表中選擇一個選項。 在邏輯回歸算法中用於擬合訓練數據的基本方法是什麼?

  1. 杰卡德距離
  2. 最大似然
  3. 最小二乘誤差
  4. 沒有上面提到的選項。

答。 答案是 B。很容易選擇選項 C,即最小二乘誤差,因為這與線性回歸中使用的方法相同。 然而,在邏輯回歸中,我們不使用最小二乘近似來將訓練實例擬合到模型中; 我們改用最大似然法。

結帳:機器學習項目的想法

Q6。 從下面的列表中選擇一個選項。 我們不能使用哪個指標來衡量邏輯回歸模型的正確性?

  1. 受試者工作特徵曲線下面積(或 AUC-ROC 評分)
  2. 對數損失
  3. 均方誤差(或 MSE)
  4. 準確性

答。 您應該選擇的正確選項是 C,即均方誤差或 MSE。 由於邏輯回歸算法實際上是一種分類算法而不是基本的回歸算法,因此我們不能使用均方誤差來確定我們編寫的邏輯回歸模型的性能。 主要原因是我們從模型接收到的輸出以及無法為類實例分配有意義的數值。

問題 7。 從下面的列表中選擇一個選項。 AIC 恰好是判斷邏輯回歸模型性能的絕佳指標。 AIC 與用於確定線性回歸算法性能的 R 平方方法非常相似。 這個 AIC 的真實情況是什麼?

  1. 通常首選 AIC 分數低的模型。
  2. AIC分數很高的模型實際上是首選。
  3. 僅根據 AIC 分數選擇模型很大程度上取決於情況。
  4. 沒有上面提到的選項。

答。 優先選擇 AIC 值最小的模型。 因此,問題的答案將是選項 A。我們選擇 AIC 可能值最低的模型的主要原因是,為了調節模型的性能而添加的懲罰實際上並不鼓勵擬合結束。 是的,AIC 或 Akaike 信息標準是該指標,其中值越低,擬合越好。

在實踐中,我們更喜歡既不是欠擬合的模型(意味著它不能很好地泛化,因為我們選擇的模型不夠複雜,無法找到數據中存在的複雜性)也不是過度擬合(意味著模型完全適合訓練數據並且它已經失去了做出更一般預測的能力)。 因此,我們選擇了一個合理的低分來避免欠擬合和過擬合。

Q8。 使用 TRUE 或 FALSE 回答。 在將數據輸入訓練邏輯回歸模型之前,我們是否需要對特徵列中存在的值進行標準化?

答。 不,我們不需要標準化特徵空間中存在的值,我們必須使用它來訓練邏輯回歸模型。 所以,這個問題的答案是錯誤的。 我們選擇標準化所有值以幫助函數(通常是梯度下降),該函數負責使算法收斂於一個值。 由於該算法相對簡單,因此它不需要縮放數量以使其實際上具有顯著的性能差異。

學習:為初學者解釋的 5 大機器學習模型

問題 9。 從下面的列表中選擇一個選項。 我們用來執行變量選擇任務的技術是什麼?

  1. 嶺回歸
  2. LASSO 回歸
  3. 沒有提到的選項
  4. LASSO 和嶺回歸

答。 這個問題的答案是 B. LASSO 回歸。 原因很簡單,在 LASSO 回歸函數中產生的 l2 懲罰具有使某些特徵的係數為零的能力。 由於係數為零,這意味著它們不會對函數的最終結果產生任何影響。 這意味著這些變量並不像我們想像的那麼重要,通過這種方式,在 LASSO 回歸的幫助下,我們可以進行變量選擇。

問題 10。 從下面的列表中選擇一個選項。 假設您擁有一枚公平的硬幣,目的是找出正面朝上的機率。 你計算出來的賠率是多少?

  1. 得到人頭的機率是0嗎
  2. 得到正面的機率是1
  3. 得到正面的機率是0.5嗎
  4. 沒有上面提到的選項。

答。 要成功回答這個問題,您需要了解賠率的含義和定義。 賠率實際上​​被定義為兩個概率的比率——發生的概率與不發生任何特定事件的可能性。 在任何硬幣的情況下,這是公平的,正面的可能性和非正面的可能性是相同的。 因此,獲得正面的機率是一。

問題 11。 從以下選項中選擇正確答案。 logit 函數定義為賠率函數的對數。 你認為這個 logit 函數的範圍在 [0,1] 的域中是多少?

  1. (-無窮大,+無窮大)
  2. (0, +無窮大)
  3. (-無窮大,0)
  4. (0, 1)

答。 概率函數取其傳遞的值並將其轉換為概率。 這意味著任何函數的範圍都被限制在零和一之間。 然而,賠率函數做了一件事,它從概率函數中獲取值,並使其範圍從零到無窮大。

因此,對數函數的有效輸入將從零到無窮大。 我們知道這個域中的對數函數範圍是整個實數線或負無窮到正無窮。 所以,這個問題的答案是選項A。

問題 12。 從下面的列表中選擇您認為正確的選項:

  1. 線性回歸情況下的誤差值必須遵循正態分佈,但在邏輯回歸情況下,這些值不必遵循標準正態分佈。
  2. 邏輯回歸情況下的誤差值必須遵循正態分佈,但在線性回歸情況下,值不必遵循標準正態分佈。
  3. 線性回歸和邏輯回歸的誤差值必須服從正態分佈。
  4. 線性回歸和邏輯回歸的誤差值不必服從正態分佈。

答。 這些陳述中唯一真實的陳述是第一個。 所以,問題的答案變成了選項A。

問題 13。 從下面的選項列表中選擇正確的選項(S)。 因此,假設您已將邏輯回歸模型應用於任何給定數據。 您得到的準確度結果是訓練集的 X 和測試集的 Y。 現在,您想向模型添加更多數據點。 那麼,在你看來,應該發生什麼?

  1. 我們在訓練數據中得到的準確度 X 應該會增加。
  2. 我們從訓練數據中獲得的準確度 X 應該會降低。
  3. 我們從測試數據中獲得的準確度 Y 應該會降低。
  4. 我們從測試數據中獲得的準確度 Y 應該增加或保持不變。

答。 訓練的準確性很大程度上取決於模型對已經看到和學習的數據的擬合。 因此,假設我們增加輸入模型的特徵數量,訓練準確度 X 會增加。 在這種情況下,訓練精度將會提高,因為模型必須變得更加複雜才能正確地擬合具有更多特徵的數據。

而只有當添加到模型中的特徵是一個優秀且重要的特徵時,測試精度才會提高,否則模型在測試時的精度將或多或少保持不變。 所以,這個問題的答案將是選項 A 和 D。

問題 14。 從以下選項中選擇正確的選項,即關於邏輯回歸方面的一對一的方法。

  1. 我們需要總共 n 個模型來正確分類 n 個類別。
  2. 我們需要 n-1 個模型來在 n 個類別之間進行分類。
  3. 我們只需要一個模型就可以成功地在 n 個類別之間進行分類。
  4. 沒有上面提到的選項。

答。 為了在 n 個不同的類之間進行分類,我們將需要 n 個模型,採用 One vs. All 方法。

問題 15。 查看下圖並通過從下面列出的選項中選擇一個選項來回答問題。 您在圖表中看到了多少個局部最小值?

  1. 圖中只有一個局部最小值。
  2. 該圖中有兩個局部最小值。
  3. 該圖中存在三個局部最小值。
  4. 該圖中有四個局部最小值。

答。 由於圖形的斜率在四個不同的點處為零(圖形像 U 形),可以肯定地說它將有四個局部最小值,因此答案是 D。

另請閱讀:線性回歸與。 邏輯回歸

接下來是什麼?

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

邏輯回歸難學嗎?

在數據科學方面,邏輯回歸和線性回歸都被廣泛用於解決不同類型的計算問題。 為了在數據科學領域高效工作,您應該理解並熟悉這兩種回歸模型。 您可能從名稱中猜到邏輯回歸使用了更高級的方程模型。 因此,與線性回歸相比,它更難學習。 但是,如果您對數學的工作原理有基本的了解,則可以在此基礎上創建 R 或 Python 編程中的包。

邏輯回歸在數據科學中有多重要?

要成為一名成功的數據科學家,必須了解獲取和處理數據、理解數據和構建模型、評估結果和部署數據的流程。 邏輯回歸對於理解整個管道概念非常寶貴。 當您了解邏輯回歸時,您會自動更好地理解機器學習概念。 此外,有時您可以僅使用邏輯回歸輕鬆解決高度複雜的問題,特別是對於非線性問題。 邏輯回歸是一種重要的統計工具,而統計是機器學習不可分割的一部分。 如果你想研究神經網絡,了解邏輯回歸將提供一個很好的開端。

邏輯回歸真的有用嗎?

儘管它的名字,邏輯回歸是一個分類框架,實際上,不僅僅是回歸。 它提出了一種更有效、更簡單的方法或算法,可用於解決機器學習中的二元分類問題。 您可以輕鬆實現它並為線性可分的類實現出色的性能。 但是,當存在多個非線性決策邊界時,邏輯回歸往往表現不佳。 在某些情況下,據說神經網絡等更緊湊的算法更高效、更強大。