33 個機器學習面試問題和答案——邏輯回歸

已發表: 2018-07-05

歡迎來到基於機器學習算法的面試常見問題系列的第二部分。我們希望前面關於線性回歸的部分對您有所幫助。

讓我們找到邏輯回歸問題的答案：
- 1.什麼是邏輯函數？邏輯函數的取值範圍是多少？
- 2. 為什麼邏輯回歸很受歡迎？
- 3.邏輯回歸函數的公式是什麼？
- 4.邏輯回歸模型的概率如何表示為條件概率？
- 5. 什麼是賠率？
- 6.邏輯模型和邏輯函數的輸出是什麼？
- 7. 如何解釋邏輯回歸模型的結果？或者，邏輯回歸模型中 alpha 和 beta 的含義是什麼？
- 8. 什麼是優勢比？
- 9. 優勢比的計算公式是什麼？
- 10、為什麼不能用線性回歸代替邏輯回歸進行二元分類？
- 11. 在邏輯回歸模型的情況下，決策邊界是線性的還是非線性的？
- 12.什麼是似然函數？
- 13. 什麼是最大似然估計 (MLE)？
- 14. MLE 有哪些不同的方法，何時首選每種方法？
- 15. MLE的有條件和無條件方法的優缺點是什麼？
- 16. 標準 MLE 程序的輸出是什麼？
- 17. 為什麼我們不能使用均方誤差 (MSE) 作為邏輯回歸的成本函數？
- 18. 為什麼準確率不是衡量分類問題的好方法？
- 19. 基線在分類問題中的重要性是什麼？
- 20、什麼是假陽性和假陰性？
- 21. 什麼是真陽性率（TPR）、真陰性率（TNR）、假陽性率（FPR）和假陰性率（FNR）？
- 22. 什麼是準確率和召回率？
- 23.什麼是F-measure？
- 24. 什麼是準確度？
- 25. 什麼是敏感性和特異性？
- 26. 在邏輯回歸模型的情況下如何選擇截止點？
- 27.邏輯回歸如何處理分類變量？
- 28. 什麼是累積響應曲線（CRV）？
- 29. 什麼是升力曲線？
- 30. 哪種算法更擅長處理異常值邏輯回歸或 SVM？
- 31. 你將如何使用邏輯回歸處理多類分類問題？
- 32. 解釋 ROC 曲線的使用和 ROC 曲線的 AUC。
- 33. 如何在多類分類中使用 ROC 的概念？
什麼是累積增益和提升圖表？
使用邏輯回歸時做了哪些假設？
如果我對機器學習有一定的了解，我能找到一份數據科學家的工作嗎？

讓我們找到邏輯回歸問題的答案：

1.什麼是邏輯函數？邏輯函數的取值範圍是多少？

f(z) = 1/(1+e ^-z )
邏輯函數的值範圍為 0 到 1。Z 的值範圍為 -infinity 到 +infinity。

2. 為什麼邏輯回歸很受歡迎？

邏輯回歸之所以出名，是因為它可以將 logits（logdds）的值從 -infinity 到 +infinity 轉換為 0 到 1 之間的範圍。由於 Logistic 函數輸出事件發生的概率，因此可以應用於許多現實生活中的場景。正是由於這個原因，邏輯回歸模型非常受歡迎。

3.邏輯回歸函數的公式是什麼？

f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} )
數據科學、機器學習和大數據之間的區別！

4.邏輯回歸模型的概率如何表示為條件概率？

P（目標變量的離散值 | X1、X2、X3….Xk）。當給定自變量的值時，目標變量取離散值（在二分類問題的情況下為 0 或 1）的概率。例如，考慮到員工的年齡、薪水、KRA 等屬性，員工流失的概率（目標變量）。

5. 什麼是賠率？

它是事件發生的概率與事件不發生的概率之比。例如，假設中獎概率為 0.01。那麼，不中獎的概率是 1- 0.01 = 0.99。
中獎機率=（中獎概率）/（不中獎概率）
中獎機率 = 0.01/0.99
中獎的賠率為 1 比 99，中獎的賠率為 99 比 1。

6.邏輯模型和邏輯函數的輸出是什麼？

邏輯模型輸出logits，即對數賠率；邏輯函數輸出概率。
邏輯模型 = α+1X1+2X2+….+kXk。相同的輸出將是 logits。
邏輯函數 = f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) 。在這種情況下，輸出將是概率。

7. 如何解釋邏輯回歸模型的結果？或者，邏輯回歸模型中 alpha 和 beta 的含義是什麼？

Alpha 是邏輯回歸模型中的基線。當所有屬性（X1，X2，………….Xk）都為零時，它是實例的對數機率。在實際場景中，所有屬性為零的概率非常低。在另一種解釋中，Alpha 是未考慮任何屬性時實例的對數賠率。
Beta 是通過保持所有其他屬性固定或不變（控制變量），特定屬性的單位變化對數機率變化的值。

8. 什麼是優勢比？

優勢比是兩組之間的優勢比。例如，假設我們正在嘗試確定一種藥物的有效性。我們將這種藥物用於“干預”組，將安慰劑用於“控制”組。
優勢比（OR）=（干預組優勢）/（對照組優勢）
解釋
如果優勢比 = 1，則乾預組和對照組之間沒有差異
如果優勢比大於1，則對照組優於乾預組
如果優勢比小於 1，則乾預組優於對照組。
5 機器學習的突破性應用

9. 優勢比的計算公式是什麼？

在上面的公式中，X ₁和 X ₀代表兩個不同的組，需要計算優勢比。 X _{1 i}代表組 X ₁中的實例“ i ”。 X _{o i}代表 X ₀組中的實例“ i ”。代表邏輯回歸模型的係數。請注意，此公式中不包括基線。

10、為什麼不能用線性回歸代替邏輯回歸進行二元分類？

在二元分類的情況下不能使用線性回歸的原因如下：
誤差項分佈：線性回歸和邏輯回歸的數據分佈不同。 線性回歸假設誤差項是正態分佈的。在二進制分類的情況下，這個假設不成立。
模型輸出：在線性回歸中，輸出是連續的。 在二進制分類的情況下，連續值的輸出沒有意義。對於二元分類問題，線性回歸可能預測的值可以超出 0 和 1。如果我們希望以概率的形式輸出，可以映射到兩個不同的類，那麼它的範圍應該限制在 0 和 1。因為邏輯回歸模型可以輸出帶有邏輯/sigmoid函數的概率，它優於線性回歸。
殘差方差：線性回歸假設隨機誤差的方差是恆定的。 在邏輯回歸的情況下也違反了這個假設。

11. 在邏輯回歸模型的情況下，決策邊界是線性的還是非線性的？

決策邊界是將目標變量分成不同類別的線。決策邊界可以是線性的也可以是非線性的。在邏輯回歸模型的情況下，決策邊界是一條直線。
Logistic回歸模型公式=α+1X1+2X2+….+kXk。這清楚地代表了一條直線。邏輯回歸僅適用於直線能夠區分不同類別的情況。如果一條直線做不到，那麼應該使用非線性算法來獲得更好的結果。

12.什麼是似然函數？

似然函數是觀察數據的聯合概率。例如，假設一枚硬幣被拋了 100 次，我們想知道拋擲 60 次正面朝上的概率。此示例遵循二項式分佈公式。
p = 單次拋硬幣正面朝上的概率
n = 100（拋硬幣的次數）
x = 60（正面數量 - 成功）
nx = 30（尾數）
Pr(X=60 |n = 100, p)
似然函數是在 100 次拋硬幣的軌跡中收到正面的數量為 60 的概率，其中每次拋硬幣收到正面的概率為 p。在這裡，拋硬幣的結果遵循二項分佈。
這可以重構如下：
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = 常數
p = 未知參數
似然函數給出了使用未知參數觀察結果的概率。

13. 什麼是最大似然估計 (MLE)？

MLE 選擇那些最大化似然函數的未知參數集（估計器）。找到 MLE 的方法是使用微積分並將邏輯函數對未知參數的導數設置為零，然後求解將給出 MLE。對於二項式模型，這很容易，但對於邏輯模型，計算很複雜。計算機程序用於推導邏輯模型的 MLE。
（這是回答問題的另一種方法。）
MLE 是一種估計數學模型參數的統計方法。如果假設因變量是正態分佈的，則 MLE 和普通平方估計對線性回歸給出相同的結果。 MLE 不對自變量做任何假設。

14. MLE 有哪些不同的方法，何時首選每種方法？

在邏輯回歸的情況下，MLE 有兩種方法。它們是有條件的和無條件的方法。條件和無條件方法是使用不同似然函數的算法。無條件公式採用正面（例如，流失）和負面（例如，非流失）的聯合概率。條件公式是觀測數據的概率與所有可能配置的概率之比。
如果參數數量少於實例數量，則首選無條件方法。如果參數的數量與實例的數量相比較高，則首選條件 MLE。統計學家建議在有疑問時使用條件 MLE。條件 MLE 將始終提供無偏的結果。
這 6 種機器學習技術正在改善醫療保健

15. MLE的有條件和無條件方法的優缺點是什麼？

條件方法不估計不需要的參數。無條件方法也估計不需要的參數的值。可以直接用聯合概率開發無條件公式。這不能用條件概率來完成。如果參數的數量相對於實例的數量較高，那麼無條件方法將給出有偏差的結果。在這種情況下，條件結果將是公正的。

16. 標準 MLE 程序的輸出是什麼？

標準 MLE 程序的輸出如下：
最大化似然值：這是通過將似然函數中的未知參數值替換為 MLE 參數估計器獲得的數值。
估計方差-協方差矩陣：該矩陣的對角線由 ML 估計的估計方差組成。 非對角線由 ML 估計值對的協方差組成。

17. 為什麼我們不能使用均方誤差 (MSE) 作為邏輯回歸的成本函數？

在邏輯回歸中，我們使用 sigmoid 函數並執行非線性變換來獲得概率。對這種非線性變換進行平方將導致具有局部最小值的非凸性。在這種情況下使用梯度下降找到全局最小值是不可能的。由於這個原因，MSE 不適合邏輯回歸。交叉熵或對數損失用作邏輯回歸的成本函數。在邏輯回歸的成本函數中，自信的錯誤預測會受到嚴重懲罰。自信的正確預測得到的回報較少。通過優化這個成本函數，可以實現收斂。

18. 為什麼準確率不是衡量分類問題的好方法？

準確度不是分類問題的一個很好的衡量標準，因為它對誤報和誤報都給予同等重視。但是，在大多數業務問題中可能並非如此。例如，在癌症預測的情況下，將癌症宣佈為良性比錯誤地告知患者他患有癌症更為嚴重。準確性對這兩種情況同等重視，無法區分它們。

19. 基線在分類問題中的重要性是什麼？

大多數分類問題都處理不平衡的數據集。示例包括電信流失、員工流失、癌症預測、欺詐檢測、在線廣告定位等。在所有這些問題中，與負類相比，正類的數量將非常少。在某些情況下，陽性類別通常少於總樣本的 1%。在這種情況下，99% 的準確率聽起來可能非常好，但實際上可能並非如此。
在這裡，負數為 99%，因此基線將保持不變。如果算法將所有實例都預測為負數，那麼準確率也將達到 99%。在這種情況下，所有的積極因素都會被錯誤地預測，這對任何企業來說都是非常重要的。即使所有的正面都被錯誤地預測了，準確率也達到了 99%。所以，基線非常重要，算法需要相對於基線進行評估。

20、什麼是假陽性和假陰性？

假陽性是那些將陰性錯誤預測為陽性的情況。例如，預測客戶會流失，而事實上他並沒有流失。
假陰性是那些陽性被錯誤地預測為陰性的情況。例如，預測客戶不會流失，而事實上他已經流失了。

21. 什麼是真陽性率（TPR）、真陰性率（TNR）、假陽性率（FPR）和假陰性率（FNR）？

TPR 是指從所有真實標籤中正確預測的正例的比率。簡單來說，就是正確預測的真實標籤的頻率。
TPR = TP/TP+FN
TNR 是指從所有錯誤標籤中正確預測的負數的比率。它是正確預測的錯誤標籤的頻率。
TNR = TN/TN+FP
FPR 是指從所有真實標籤中錯誤預測的陽性率。它是錯誤預測錯誤標籤的頻率。
FPR = FP/TN+FP
FNR 是指從所有錯誤標籤中錯誤預測的負數的比率。它是錯誤預測的真實標籤的頻率。
FNR = FN/TP+FN

22. 什麼是準確率和召回率？

精確度是真陽性與預測陽性的比例。換句話說，就是預測的準確性。它也被稱為“陽性預測值”。
精度 = TP/TP+FP
召回率與真陽性率 (TPR) 相同。
無監督機器學習如何工作？

23.什麼是F-measure？

它是準確率和召回率的調和平均值。在某些情況下，精度和召回率之間會有一個權衡。在這種情況下，F-measure 將下降。當準確率和召回率都很高時，它會很高。根據手頭的業務案例和數據分析的目標，應選擇適當的指標。
F-measure = 2 X (Precision X Recall) / (Precision+Recall)

24. 什麼是準確度？

它是所有預測中正確預測的數量。
準確率 = (TP+TN)/(預測總數)

25. 什麼是敏感性和特異性？

特異性與真陰性率相同，或等於 1 – 假陽性率。
特異性 = TN/TN + FP。
靈敏度是真陽性率。
靈敏度 = TP/TP + FN

26. 在邏輯回歸模型的情況下如何選擇截止點？

截止點取決於業務目標。根據您的業務目標，需要選擇截止點。例如，讓我們考慮貸款違約。如果業務目標是減少損失，那麼特異性就需要很高。如果目的是增加利潤，那就完全不同了。通過避免向所有預測的違約情況提供貸款，利潤可能不會增加。但情況可能是，企業必須向風險略低的違約案例發放貸款以增加利潤。在這種情況下，將需要一個使利潤最大化的不同截止點。在大多數情況下，企業將在許多限制條件下運營。滿足業務目標的截止點在有限制和無限制的情況下是不同的。需要考慮所有這些點來選擇截止點。作為一個經驗法則，選擇一個與數據集中正數比例相等的截止值。

什麼是機器學習及其重要性

27.邏輯回歸如何處理分類變量？

邏輯回歸模型的輸入必須是數字的。該算法不能直接處理分類變量。因此，需要將它們轉換為適合算法處理的格式。分類變量的各個級別將被分配一個唯一的數值，稱為虛擬變量。這些虛擬變量由邏輯回歸模型處理為任何其他數值。

28. 什麼是累積響應曲線（CRV）？

為了將分析結果傳達給管理層，使用了“累積響應曲線”，它比 ROC 曲線更直觀。對於數據科學領域以外的人來說，ROC 曲線很難理解。 CRV 由 Y 軸上正確分類的真陽性率或陽性百分比和 X 軸上目標人群的百分比組成。需要注意的是，總體百分比將由模型按降序排列（概率或期望值）。如果模型很好，那麼通過定位排名列表的頂部，將捕獲所有高百分比的正數。與 ROC 曲線一樣，會有一條對角線代表隨機性能。讓我們以這種隨機性能為例。假設 50% 的列表是目標，預計它將捕獲 50% 的正面。這種期望由類似於 ROC 曲線的對角線捕獲。

29. 什麼是升力曲線？

與隨機性能相比，提升是模型性能的改進（真陽性率的增加）。隨機性能意味著如果 50% 的實例是目標，那麼預計它將檢測到 50% 的陽性。提升與模型的隨機性能進行比較。如果一個模型的性能優於它的隨機性能，那麼它的提升將大於 1。
在提升曲線中，提升繪製在 Y 軸上，人口百分比（按降序排列）繪製在 X 軸上。在目標人群的給定百分比下，首選具有高提升的模型。

30. 哪種算法更擅長處理異常值邏輯回歸或 SVM？

如果存在以容納異常值，邏輯回歸將找到線性邊界。邏輯回歸將移動線性邊界以適應異常值。 SVM 對單個樣本不敏感。線性邊界不會發生重大變化以適應異常值。 SVM 帶有內置的複雜性控制，可以處理過度擬合。在邏輯回歸的情況下，情況並非如此。

31. 你將如何使用邏輯回歸處理多類分類問題？

使用邏輯回歸處理多類分類最著名的方法是使用一對多的方法。在這種方法下，訓練了許多模型，這等於類的數量。這些模型以特定的方式工作。例如，第一個模型根據數據點屬於類 1 還是其他類來對數據點進行分類；第二個模型將數據點分類為 2 類或其他類。這樣，可以檢查所有類的每個數據點。

32.解釋 ROC 曲線的使用和 ROC 曲線的 AUC。

ROC（接收器操作特徵）曲線說明了二元分類模型的性能。對於從 0 到 1 的所有閾值，它基本上是 TPR 與 FPR（真陽性率與假陽性率）曲線。在 ROC 曲線中，ROC 空間中的每個點將與不同的混淆矩陣相關聯。 ROC 圖上從左下角到右上角的對角線代表隨機猜測。曲線下面積 (AUC) 表示分類器模型的好壞。如果 AUC 的值很高（接近 1），則模型運行良好，而如果值很低（大約 0.5），則模型無法正常運行，只是隨機猜測。

33. 如何在多類分類中使用 ROC 的概念？

通過使用一對多的方法，ROC 曲線的概念可以很容易地用於多類分類。例如，假設我們有三個類“a”、“b”和“c”。然後，第一類包括類“a”（真類），第二類同時包括類“b”和類“c”（假類）。因此，繪製了 ROC 曲線。同樣，對於所有三個類別，我們將繪製三個 ROC 曲線並執行我們的 AUC 分析。
到目前為止，我們已經介紹了兩種最基本的 ML 算法，線性和邏輯回歸，我們希望這些資源對您有所幫助。

從世界頂級大學學習 ML 課程。獲得碩士、Executive PGP 或高級證書課程以加快您的職業生涯。

機器學習工程師：神話與現實

本系列的下一部分基於另一個非常重要的 ML 算法，聚類。請隨時在下面的評論部分中發表您的疑問和問題。
合著者 – Ojas Agarwal

什麼是累積增益和提升圖表？

增益和提升圖是一種以各種方式評估多種機器學習模型效率的可視化方法。除了幫助您評估您的預測模型的成功程度外，它們還直觀地顯示了目標組的響應率與隨機選擇的組的響應率有何不同。這些圖表在企業環境中很有價值，例如目標營銷。它們也可能應用於其他領域，例如風險建模、供應鏈分析等。換句話說，增益圖和提升圖是處理涉及不平衡數據集的分類困難的兩種方法。

使用邏輯回歸時做了哪些假設？

使用邏輯回歸時會做出一些假設。其中之一是連續預測變量沒有影響值（極值或異常值）。分為兩類的邏輯回歸假設因變量是二元的，而有序邏輯回歸則要求因變量是有序的。還假設預測變量之間沒有實質性的相互關係（即多重共線性）。它還認為觀察是相互獨立的。

如果我對機器學習有一定的了解，我能找到一份數據科學家的工作嗎？

數據科學家使用機器學習和預測建模等複雜的分析技術收集、分析和解釋大量數據。然後，公司領導者會利用這些來做出最佳的業務選擇。因此，除了數據挖掘和對統計研究方法的理解等其他技能外，機器學習是數據科學家的一項關鍵能力。但如果你想成為一名數據科學家，你還必須熟悉 Hadoop、Pig、Hive、Spark 等大數據平台和技術，以及 SQL、Python 等編程語言。