33 个机器学习面试问题和答案——逻辑回归

已发表: 2018-07-05

欢迎来到基于机器学习算法的面试常见问题系列的第二部分。我们希望前面关于线性回归的部分对您有所帮助。

让我们找到逻辑回归问题的答案：
- 1.什么是逻辑函数？逻辑函数的取值范围是多少？
- 2. 为什么逻辑回归很受欢迎？
- 3.逻辑回归函数的公式是什么？
- 4.逻辑回归模型的概率如何表示为条件概率？
- 5. 什么是赔率？
- 6.逻辑模型和逻辑函数的输出是什么？
- 7. 如何解释逻辑回归模型的结果？或者，逻辑回归模型中 alpha 和 beta 的含义是什么？
- 8. 什么是优势比？
- 9. 优势比的计算公式是什么？
- 10、为什么不能用线性回归代替逻辑回归进行二元分类？
- 11. 在逻辑回归模型的情况下，决策边界是线性的还是非线性的？
- 12.什么是似然函数？
- 13. 什么是最大似然估计 (MLE)？
- 14. MLE 有哪些不同的方法，何时首选每种方法？
- 15. MLE的有条件和无条件方法的优缺点是什么？
- 16. 标准 MLE 程序的输出是什么？
- 17. 为什么我们不能使用均方误差 (MSE) 作为逻辑回归的成本函数？
- 18. 为什么准确率不是衡量分类问题的好方法？
- 19. 基线在分类问题中的重要性是什么？
- 20、什么是假阳性和假阴性？
- 21. 什么是真阳性率（TPR）、真阴性率（TNR）、假阳性率（FPR）和假阴性率（FNR）？
- 22. 什么是准确率和召回率？
- 23.什么是F-measure？
- 24. 什么是准确度？
- 25. 什么是敏感性和特异性？
- 26. 在逻辑回归模型的情况下如何选择截止点？
- 27.逻辑回归如何处理分类变量？
- 28. 什么是累积响应曲线（CRV）？
- 29. 什么是升力曲线？
- 30. 哪种算法更擅长处理异常值逻辑回归或 SVM？
- 31. 你将如何使用逻辑回归处理多类分类问题？
- 32. 解释 ROC 曲线的使用和 ROC 曲线的 AUC。
- 33. 如何在多类分类中使用 ROC 的概念？
什么是累积增益和提升图表？
使用逻辑回归时做了哪些假设？
如果我对机器学习有一定的了解，我能找到一份数据科学家的工作吗？

让我们找到逻辑回归问题的答案：

1.什么是逻辑函数？逻辑函数的取值范围是多少？

f(z) = 1/(1+e ^-z )
逻辑函数的值范围为 0 到 1。Z 的值范围为 -infinity 到 +infinity。

2. 为什么逻辑回归很受欢迎？

逻辑回归之所以出名，是因为它可以将 logits（logdds）的值从 -infinity 到 +infinity 转换为 0 到 1 之间的范围。由于 Logistic 函数输出事件发生的概率，因此可以应用于许多现实生活中的场景。正是由于这个原因，逻辑回归模型非常受欢迎。

3.逻辑回归函数的公式是什么？

f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} )
数据科学、机器学习和大数据之间的区别！

4.逻辑回归模型的概率如何表示为条件概率？

P（目标变量的离散值 | X1、X2、X3….Xk）。当给定自变量的值时，目标变量取离散值（在二分类问题的情况下为 0 或 1）的概率。例如，考虑到员工的年龄、薪水、KRA 等属性，员工流失的概率（目标变量）。

5. 什么是赔率？

它是事件发生的概率与事件不发生的概率之比。例如，假设中奖概率为 0.01。那么，不中奖的概率是 1- 0.01 = 0.99。
中奖几率=（中奖概率）/（不中奖概率）
中奖几率 = 0.01/0.99
中奖的赔率为 1 比 99，中奖的赔率为 99 比 1。

6.逻辑模型和逻辑函数的输出是什么？

逻辑模型输出logits，即对数赔率；逻辑函数输出概率。
逻辑模型 = α+1X1+2X2+….+kXk。相同的输出将是 logits。
逻辑函数 = f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) 。在这种情况下，输出将是概率。

7. 如何解释逻辑回归模型的结果？或者，逻辑回归模型中 alpha 和 beta 的含义是什么？

Alpha 是逻辑回归模型中的基线。当所有属性（X1，X2，………….Xk）都为零时，它是实例的对数几率。在实际场景中，所有属性为零的概率非常低。在另一种解释中，Alpha 是未考虑任何属性时实例的对数赔率。
Beta 是通过保持所有其他属性固定或不变（控制变量），特定属性的单位变化对数几率变化的值。

8. 什么是优势比？

优势比是两组之间的优势比。例如，假设我们正在尝试确定一种药物的有效性。我们将这种药物用于“干预”组，将安慰剂用于“控制”组。
优势比（OR）=（干预组优势）/（对照组优势）
解释
如果优势比 = 1，则干预组和对照组之间没有差异
如果优势比大于1，则对照组优于干预组
如果优势比小于 1，则干预组优于对照组。
5 机器学习的突破性应用

9. 优势比的计算公式是什么？

在上面的公式中，X ₁和 X ₀代表两个不同的组，需要计算优势比。 X _{1 i}代表组 X ₁中的实例“ i ”。 X _{o i}代表 X ₀组中的实例“ i ”。代表逻辑回归模型的系数。请注意，此公式中不包括基线。

10、为什么不能用线性回归代替逻辑回归进行二元分类？

在二元分类的情况下不能使用线性回归的原因如下：
误差项分布：线性回归和逻辑回归的数据分布不同。 线性回归假设误差项是正态分布的。在二进制分类的情况下，这个假设不成立。
模型输出：在线性回归中，输出是连续的。 在二进制分类的情况下，连续值的输出没有意义。对于二元分类问题，线性回归可能预测的值可以超出 0 和 1。如果我们希望以概率的形式输出，可以映射到两个不同的类，那么它的范围应该限制在 0 和 1。因为逻辑回归模型可以输出带有逻辑/sigmoid函数的概率，它优于线性回归。
残差方差：线性回归假设随机误差的方差是恒定的。 在逻辑回归的情况下也违反了这个假设。

11. 在逻辑回归模型的情况下，决策边界是线性的还是非线性的？

决策边界是将目标变量分成不同类别的线。决策边界可以是线性的也可以是非线性的。在逻辑回归模型的情况下，决策边界是一条直线。
Logistic回归模型公式=α+1X1+2X2+….+kXk。这清楚地代表了一条直线。逻辑回归仅适用于直线能够区分不同类别的情况。如果一条直线做不到，那么应该使用非线性算法来获得更好的结果。

12.什么是似然函数？

似然函数是观察数据的联合概率。例如，假设一枚硬币被抛了 100 次，我们想知道抛掷 60 次正面朝上的概率。此示例遵循二项式分布公式。
p = 单次抛硬币正面朝上的概率
n = 100（抛硬币的次数）
x = 60（正面数量 - 成功）
nx = 30（尾数）
Pr(X=60 |n = 100, p)
似然函数是在 100 次抛硬币的轨迹中收到正面的数量为 60 的概率，其中每次抛硬币收到正面的概率为 p。在这里，抛硬币的结果遵循二项分布。
这可以重构如下：
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = 常数
p = 未知参数
似然函数给出了使用未知参数观察结果的概率。

13. 什么是最大似然估计 (MLE)？

MLE 选择那些最大化似然函数的未知参数集（估计器）。找到 MLE 的方法是使用微积分并将逻辑函数对未知参数的导数设置为零，然后求解将给出 MLE。对于二项式模型，这很容易，但对于逻辑模型，计算很复杂。计算机程序用于推导逻辑模型的 MLE。
（这是回答问题的另一种方法。）
MLE 是一种估计数学模型参数的统计方法。如果假设因变量是正态分布的，则 MLE 和普通平方估计对线性回归给出相同的结果。 MLE 不对自变量做任何假设。

14. MLE 有哪些不同的方法，何时首选每种方法？

在逻辑回归的情况下，MLE 有两种方法。它们是有条件的和无条件的方法。条件和无条件方法是使用不同似然函数的算法。无条件公式采用正面（例如，流失）和负面（例如，非流失）的联合概率。条件公式是观测数据的概率与所有可能配置的概率之比。
如果参数数量少于实例数量，则首选无条件方法。如果参数的数量与实例的数量相比较高，则首选条件 MLE。统计学家建议在有疑问时使用条件 MLE。条件 MLE 将始终提供无偏的结果。
这 6 种机器学习技术正在改善医疗保健

15. MLE的有条件和无条件方法的优缺点是什么？

条件方法不估计不需要的参数。无条件方法也估计不需要的参数的值。可以直接用联合概率开发无条件公式。这不能用条件概率来完成。如果参数的数量相对于实例的数量较高，那么无条件方法将给出有偏差的结果。在这种情况下，条件结果将是公正的。

16. 标准 MLE 程序的输出是什么？

标准 MLE 程序的输出如下：
最大化似然值：这是通过将似然函数中的未知参数值替换为 MLE 参数估计器获得的数值。
估计方差-协方差矩阵：该矩阵的对角线由 ML 估计的估计方差组成。 非对角线由 ML 估计值对的协方差组成。

17. 为什么我们不能使用均方误差 (MSE) 作为逻辑回归的成本函数？

在逻辑回归中，我们使用 sigmoid 函数并执行非线性变换来获得概率。对这种非线性变换进行平方将导致具有局部最小值的非凸性。在这种情况下使用梯度下降找到全局最小值是不可能的。由于这个原因，MSE 不适合逻辑回归。交叉熵或对数损失用作逻辑回归的成本函数。在逻辑回归的成本函数中，自信的错误预测会受到严重惩罚。自信的正确预测得到的回报较少。通过优化这个成本函数，可以实现收敛。

18. 为什么准确率不是衡量分类问题的好方法？

准确度不是分类问题的一个很好的衡量标准，因为它对误报和误报都给予同等重视。但是，在大多数业务问题中可能并非如此。例如，在癌症预测的情况下，将癌症宣布为良性比错误地告知患者他患有癌症更为严重。准确性对这两种情况同等重视，无法区分它们。

19. 基线在分类问题中的重要性是什么？

大多数分类问题都处理不平衡的数据集。示例包括电信流失、员工流失、癌症预测、欺诈检测、在线广告定位等。在所有这些问题中，与负类相比，正类的数量将非常少。在某些情况下，阳性类别通常少于总样本的 1%。在这种情况下，99% 的准确率听起来可能非常好，但实际上可能并非如此。
在这里，负数为 99%，因此基线将保持不变。如果算法将所有实例都预测为负数，那么准确率也将达到 99%。在这种情况下，所有的积极因素都会被错误地预测，这对任何企业来说都是非常重要的。即使所有的正面都被错误地预测了，准确率也达到了 99%。所以，基线非常重要，算法需要相对于基线进行评估。

20、什么是假阳性和假阴性？

假阳性是那些将阴性错误预测为阳性的情况。例如，预测客户会流失，而事实上他并没有流失。
假阴性是那些阳性被错误地预测为阴性的情况。例如，预测客户不会流失，而事实上他已经流失了。

21. 什么是真阳性率（TPR）、真阴性率（TNR）、假阳性率（FPR）和假阴性率（FNR）？

TPR 是指从所有真实标签中正确预测的正例的比率。简单来说，就是正确预测的真实标签的频率。
TPR = TP/TP+FN
TNR 是指从所有错误标签中正确预测的负数的比率。它是正确预测的错误标签的频率。
TNR = TN/TN+FP
FPR 是指从所有真实标签中错误预测的阳性率。它是错误预测错误标签的频率。
FPR = FP/TN+FP
FNR 是指从所有错误标签中错误预测的负数的比率。它是错误预测的真实标签的频率。
FNR = FN/TP+FN

22. 什么是准确率和召回率？

精确度是真阳性与预测阳性的比例。换句话说，就是预测的准确性。它也被称为“阳性预测值”。
精度 = TP/TP+FP
召回率与真阳性率 (TPR) 相同。
无监督机器学习如何工作？

23.什么是F-measure？

它是准确率和召回率的调和平均值。在某些情况下，精度和召回率之间会有一个权衡。在这种情况下，F-measure 将下降。当准确率和召回率都很高时，它会很高。根据手头的业务案例和数据分析的目标，应选择适当的指标。
F-measure = 2 X (Precision X Recall) / (Precision+Recall)

24. 什么是准确度？

它是所有预测中正确预测的数量。
准确率 = (TP+TN)/(预测总数)

25. 什么是敏感性和特异性？

特异性与真阴性率相同，或等于 1 – 假阳性率。
特异性 = TN/TN + FP。
灵敏度是真阳性率。
灵敏度 = TP/TP + FN

26. 在逻辑回归模型的情况下如何选择截止点？

截止点取决于业务目标。根据您的业务目标，需要选择截止点。例如，让我们考虑贷款违约。如果业务目标是减少损失，那么特异性就需要很高。如果目的是增加利润，那就完全不同了。通过避免向所有预测的违约情况提供贷款，利润可能不会增加。但情况可能是，企业必须向风险略低的违约案例发放贷款以增加利润。在这种情况下，将需要一个使利润最大化的不同截止点。在大多数情况下，企业将在许多限制条件下运营。满足业务目标的截止点在有限制和无限制的情况下是不同的。需要考虑所有这些点来选择截止点。作为一个经验法则，选择一个与数据集中正数比例相等的截止值。

什么是机器学习及其重要性

27.逻辑回归如何处理分类变量？

逻辑回归模型的输入必须是数字的。该算法不能直接处理分类变量。因此，需要将它们转换为适合算法处理的格式。分类变量的各个级别将被分配一个唯一的数值，称为虚拟变量。这些虚拟变量由逻辑回归模型处理为任何其他数值。

28. 什么是累积响应曲线（CRV）？

为了将分析结果传达给管理层，使用了“累积响应曲线”，它比 ROC 曲线更直观。对于数据科学领域以外的人来说，ROC 曲线很难理解。 CRV 由 Y 轴上正确分类的真阳性率或阳性百分比和 X 轴上目标人群的百分比组成。需要注意的是，总体百分比将由模型按降序排列（概率或期望值）。如果模型很好，那么通过定位排名列表的顶部，将捕获所有高百分比的正数。与 ROC 曲线一样，会有一条对角线代表随机性能。让我们以这种随机性能为例。假设 50% 的列表是目标，预计它将捕获 50% 的正面。这种期望由类似于 ROC 曲线的对角线捕获。

29. 什么是升力曲线？

与随机性能相比，提升是模型性能的改进（真阳性率的增加）。随机性能意味着如果 50% 的实例是目标，那么预计它将检测到 50% 的阳性。提升与模型的随机性能进行比较。如果一个模型的性能优于它的随机性能，那么它的提升将大于 1。
在提升曲线中，提升绘制在 Y 轴上，人口百分比（按降序排列）绘制在 X 轴上。在目标人群的给定百分比下，首选具有高提升的模型。

30. 哪种算法更擅长处理异常值逻辑回归或 SVM？

如果存在以容纳异常值，逻辑回归将找到线性边界。逻辑回归将移动线性边界以适应异常值。 SVM 对单个样本不敏感。线性边界不会发生重大变化以适应异常值。 SVM 带有内置的复杂性控制，可以处理过度拟合。在逻辑回归的情况下，情况并非如此。

31. 你将如何使用逻辑回归处理多类分类问题？

使用逻辑回归处理多类分类最著名的方法是使用一对多的方法。在这种方法下，训练了许多模型，这等于类的数量。这些模型以特定的方式工作。例如，第一个模型根据数据点属于类 1 还是其他类来对数据点进行分类；第二个模型将数据点分类为 2 类或其他类。这样，可以检查所有类的每个数据点。

32.解释 ROC 曲线的使用和 ROC 曲线的 AUC。

ROC（接收器操作特征）曲线说明了二元分类模型的性能。对于从 0 到 1 的所有阈值，它基本上是 TPR 与 FPR（真阳性率与假阳性率）曲线。在 ROC 曲线中，ROC 空间中的每个点将与不同的混淆矩阵相关联。 ROC 图上从左下角到右上角的对角线代表随机猜测。曲线下面积 (AUC) 表示分类器模型的好坏。如果 AUC 的值很高（接近 1），则模型运行良好，而如果值很低（大约 0.5），则模型无法正常运行，只是随机猜测。

33. 如何在多类分类中使用 ROC 的概念？

通过使用一对多的方法，ROC 曲线的概念可以很容易地用于多类分类。例如，假设我们有三个类“a”、“b”和“c”。然后，第一类包括类“a”（真类），第二类同时包括类“b”和类“c”（假类）。因此，绘制了 ROC 曲线。同样，对于所有三个类别，我们将绘制三个 ROC 曲线并执行我们的 AUC 分析。
到目前为止，我们已经介绍了两种最基本的 ML 算法，线性和逻辑回归，我们希望这些资源对您有所帮助。

从世界顶级大学学习 ML 课程。获得硕士、Executive PGP 或高级证书课程以加快您的职业生涯。

机器学习工程师：神话与现实

本系列的下一部分基于另一个非常重要的 ML 算法，聚类。请随时在下面的评论部分中发表您的疑问和问题。
合着者 – Ojas Agarwal

什么是累积增益和提升图表？

增益和提升图是一种以各种方式评估多种机器学习模型效率的可视化方法。除了帮助您评估您的预测模型的成功程度之外，它们还直观地显示了目标组的响应率与随机选择的组的响应率有何不同。这些图表在企业环境中很有价值，例如目标营销。它们也可能应用于其他领域，例如风险建模、供应链分析等。换句话说，增益图和提升图是处理涉及不平衡数据集的分类困难的两种方法。

使用逻辑回归时做了哪些假设？

使用逻辑回归时会做出一些假设。其中之一是连续预测变量没有影响值（极值或异常值）。分为两类的逻辑回归假设因变量是二元的，而有序逻辑回归则要求因变量是有序的。还假设预测变量之间没有实质性的相互关系（即多重共线性）。它还认为观察是相互独立的。

如果我对机器学习有一定的了解，我能找到一份数据科学家的工作吗？

数据科学家使用机器学习和预测建模等复杂的分析技术收集、分析和解释大量数据。然后，公司领导者会利用这些来做出最佳的业务选择。因此，除了数据挖掘和对统计研究方法的理解等其他技能外，机器学习是数据科学家的一项关键能力。但如果你想成为一名数据科学家，你还必须熟悉 Hadoop、Pig、Hive、Spark 等大数据平台和技术，以及 SQL、Python 等编程语言。