Logistic 回归面试问题和答案 [适用于应届生和有经验者]

已发表: 2020-09-24

谈到机器学习,更具体地说是分类,逻辑回归可能是最直接和最广泛使用的算法。 由于逻辑回归非常易于理解和实现,因此该算法非常适合初学者和刚开始机器学习或数据科学之旅的人们。

尽管逻辑回归这个名字听起来像是人们可以用来实现回归的算法,但事实远非如此。 由于其细微差别,逻辑回归更适合将实例实际分类为定义明确的类,而不是实际执行回归任务。

简而言之,该算法采用线性回归输出并在给我们结果之前应用激活函数。 逻辑回归使用的激活函数是 sigmoid 函数(也称为逻辑函数)。 遵循 sigmoid 函数的属性,而不是提供连续值,它只是给出一个在 0 和 1 范围内的数字。 设置阈值后,从逻辑回归的输出进行分类变得轻而易举。

我们都知道数据科学和机器学习领域是如何发展的。 每天都在创造更多的机会。 因此,在这个竞争激烈的世界中,确保您拥有正确的知识是确保在您梦想的公司中获得良好位置的关键。 为了帮助您完成这项工作,我们准备了一系列逻辑回归面试问题,这些问题应该可以帮助您为成为专业数据科学家或机器学习专业人士的旅程做好准备。

目录

逻辑回归面试问答

Q1。 使用 TRUE 或 FALSE 回答。 逻辑回归是一种监督机器学习算法吗?

答。 是的,这个问题的答案是正确的,因为逻辑回归确实是一种有监督的机器学习算法。 简单的原因在于该算法的工作方式。 要从逻辑回归中获得输出,您必须先为其提供数据。

您必须提供实例和这些实例的正确标签,以便它能够从中学习并做出准确的预测。 有监督的机器学习算法需要目标变量 (Y) 和用于提供输入信息 (X) 的类实例或变量,以便能够成功训练和做出预测。

Q2。 使用 TRUE 或 FALSE 回答。 逻辑回归主要用于分类吗?

答。 是的,这个问题的答案是正确的。 事实上,逻辑回归主要用于分类任务,而不是执行实际的回归。 我们使用线性回归进行回归。 由于两者的相似性,很容易混淆。 不要犯这个错误。 在逻辑回归中,我们使用逻辑函数,它只不过是一个 sigmoid 激活函数,它使分类任务更加舒适。

Q3。 用 TRUE 或 FALSE 回答这个问题。 可以实现模仿逻辑回归算法行为的神经网络吗?

答。 是的,答案是正确的。 神经网络也称为通用逼近器。 它们可以用来模仿几乎任何机器学习算法。 换个角度来看,如果您使用的是 TensorFlow 2.0 的 Keras API,您所要做的就是在顺序模型中添加一层,并使用 sigmoid 激活函数使这一层。

Q4。 使用 TRUE 或 FALSE 回答这个问题。 我们可以使用逻辑回归来解决多类分类问题吗?

答。 简短的回答是正确的。 然而,冗长的答案会让你想一想。 仅使用一个逻辑回归模型是无法实现多类分类的。 您将需要使用具有 softmax 激活函数的神经网络或使用复杂的机器学习算法来成功预测输入变量的许多类别。

但是,有一种方法可以实际使用逻辑回归来解决多类分类问题。 那将是使用一对多的方法。 您将需要训练 n 个分类器(其中 n 是类的数量),每个分类器只预测一个类。 因此,在三类分类的情况下(假设为 A、B 和 C),您将需要训练两个分类器,一个预测 A 而不是 A,另一个预测 B 而不是 B,最后一个分类器预测 C 而不是 C。然后您必须将所有这三个模型的输出整合在一起,以便能够仅使用逻辑回归进行多类分类。

Q5。 从下面的列表中选择一个选项。 在逻辑回归算法中用于拟合训练数据的基本方法是什么?

  1. 杰卡德距离
  2. 最大似然
  3. 最小二乘误差
  4. 没有上面提到的选项。

答。 答案是 B。很容易选择选项 C,即最小二乘误差,因为这与线性回归中使用的方法相同。 然而,在逻辑回归中,我们不使用最小二乘近似来将训练实例拟合到模型中; 我们改用最大似然法。

结帐:机器学习项目的想法

Q6。 从下面的列表中选择一个选项。 我们不能使用哪个指标来衡量逻辑回归模型的正确性?

  1. 受试者工作特征曲线下面积(或 AUC-ROC 评分)
  2. 对数损失
  3. 均方误差(或 MSE)
  4. 准确性

答。 您应该选择的正确选项是 C,即均方误差或 MSE。 由于逻辑回归算法实际上是一种分类算法而不是基本的回归算法,因此我们不能使用均方误差来确定我们编写的逻辑回归模型的性能。 主要原因是我们从模型接收到的输出以及无法为类实例分配有意义的数值。

问题 7。 从下面的列表中选择一个选项。 AIC 恰好是判断逻辑回归模型性能的绝佳指标。 AIC 与用于确定线性回归算法性能的 R 平方方法非常相似。 这个 AIC 的真实情况是什么?

  1. 通常首选 AIC 分数低的模型。
  2. AIC分数很高的模型实际上是首选。
  3. 仅根据 AIC 分数选择模型很大程度上取决于情况。
  4. 没有上面提到的选项。

答。 优先选择 AIC 值最小的模型。 因此,问题的答案将是选项 A。我们选择 AIC 可能值最低的模型的主要原因是,为了调节模型的性能而添加的惩罚实际上并不鼓励拟合结束。 是的,AIC 或 Akaike 信息标准是该指标,其中值越低,拟合越好。

在实践中,我们更喜欢既不是欠拟合的模型(意味着它不能很好地泛化,因为我们选择的模型不够复杂,无法找到数据中存在的复杂性)也不是过度拟合(意味着模型完全适合训练数据并且它已经失去了做出更一般预测的能力)。 因此,我们选择了一个合理的低分来避免欠拟合和过拟合。

Q8。 使用 TRUE 或 FALSE 回答。 在将数据输入训练逻辑回归模型之前,我们是否需要对特征列中存在的值进行标准化?

答。 不,我们不需要标准化特征空间中存在的值,我们必须使用它来训练逻辑回归模型。 所以,这个问题的答案是错误的。 我们选择标准化所有值以帮助函数(通常是梯度下降),该函数负责使算法收敛于一个值。 由于该算法相对简单,因此它不需要缩放数量以使其实际上具有显着的性能差异。

学习:为初学者解释的 5 大机器学习模型

问题 9。 从下面的列表中选择一个选项。 我们用来执行变量选择任务的技术是什么?

  1. 岭回归
  2. LASSO 回归
  3. 没有提到的选项
  4. LASSO 和岭回归

答。 这个问题的答案是 B. LASSO 回归。 原因很简单,在 LASSO 回归函数中产生的 l2 惩罚具有使某些特征的系数为零的能力。 由于系数为零,这意味着它们不会对函数的最终结果产生任何影响。 这意味着这些变量并不像我们想象的那么重要,通过这种方式,在 LASSO 回归的帮助下,我们可以进行变量选择。

问题 10。 从下面的列表中选择一个选项。 假设您拥有一枚公平的硬币,目的是找出正面朝上的几率。 你计算出来的赔率是多少?

  1. 得到人头的几率是0吗
  2. 得到正面的几率是1
  3. 得到正面的几率是0.5吗
  4. 没有上面提到的选项。

答。 要成功回答这个问题,您需要了解赔率的含义和定义。 赔率实际上被定义为两个概率的比率——发生的概率与不发生任何特定事件的可能性。 在任何硬币的情况下,这是公平的,正面的可能性和非正面的可能性是相同的。 因此,获得正面的几率是一。

问题 11。 从以下选项中选择正确答案。 logit 函数定义为赔率函数的对数。 你认为这个 logit 函数的范围在 [0,1] 的域中是多少?

  1. (-无穷大,+无穷大)
  2. (0, +无穷大)
  3. (-无穷大,0)
  4. (0, 1)

答。 概率函数取其传递的值并将其转换为概率。 这意味着任何函数的范围都被限制在零和一之间。 然而,赔率函数做了一件事,它从概率函数中获取值,并使其范围从零到无穷大。

因此,对数函数的有效输入将从零到无穷大。 我们知道这个域中的对数函数范围是整个实数线或负无穷到正无穷。 所以,这个问题的答案是选项A。

问题 12。 从下面的列表中选择您认为正确的选项:

  1. 线性回归情况下的误差值必须遵循正态分布,但在逻辑回归情况下,这些值不必遵循标准正态分布。
  2. 逻辑回归情况下的误差值必须遵循正态分布,但在线性回归情况下,值不必遵循标准正态分布。
  3. 线性回归和逻辑回归的误差值必须服从正态分布。
  4. 线性回归和逻辑回归的误差值不必服从正态分布。

答。 这些陈述中唯一真实的陈述是第一个。 所以,问题的答案变成了选项A。

问题 13。 从下面的选项列表中选择正确的选项(S)。 因此,假设您已将逻辑回归模型应用于任何给定数据。 您得到的准确度结果是训练集的 X 和测试集的 Y。 现在,您想向模型添加更多数据点。 那么,在你看来,应该发生什么?

  1. 我们在训练数据中得到的准确度 X 应该会增加。
  2. 我们从训练数据中获得的准确度 X 应该会降低。
  3. 我们从测试数据中获得的准确度 Y 应该会降低。
  4. 我们从测试数据中获得的准确度 Y 应该增加或保持不变。

答。 训练的准确性很大程度上取决于模型对已经看到和学习​​的数据的拟合。 因此,假设我们增加输入模型的特征数量,训练准确度 X 会增加。 在这种情况下,训练精度将会提高,因为模型必须变得更加复杂才能正确地拟合具有更多特征的数据。

而只有当添加到模型中的特征是一个优秀且重要的特征时,测试精度才会提高,否则模型在测试时的精度将或多或少保持不变。 所以,这个问题的答案将是选项 A 和 D。

问题 14。 从以下选项中选择正确的选项,即关于逻辑回归方面的一对一的方法。

  1. 我们需要总共 n 个模型来正确分类 n 个类别。
  2. 我们需要 n-1 个模型来在 n 个类别之间进行分类。
  3. 我们只需要一个模型就可以成功地在 n 个类别之间进行分类。
  4. 没有上面提到的选项。

答。 为了在 n 个不同的类之间进行分类,我们将需要 n 个模型,采用 One vs. All 方法。

问题 15。 查看下图并通过从下面列出的选项中选择一个选项来回答问题。 您在图表中看到了多少个局部最小值?

  1. 图中只有一个局部最小值。
  2. 该图中有两个局部最小值。
  3. 该图中存在三个局部最小值。
  4. 该图中有四个局部最小值。

答。 由于图形的斜率在四个不同的点处为零(图形像 U 形),可以肯定地说它将有四个局部最小值,因此答案是 D。

另请阅读:线性回归与。 逻辑回归

接下来是什么?

如果您有兴趣了解有关机器学习的更多信息,请查看 IIIT-B 和 upGrad 的机器学习和人工智能 PG 文凭,该文凭专为工作专业人士设计,提供 450 多个小时的严格培训、30 多个案例研究和作业、IIIT- B 校友身份、5 个以上实用的实践顶点项目和顶级公司的工作协助。

逻辑回归难学吗?

在数据科学方面,逻辑回归和线性回归都被广泛用于解决不同类型的计算问题。 为了在数据科学领域高效工作,您应该理解并熟悉这两种回归模型。 您可能从名称中猜到逻辑回归使用了更高级的方程模型。 因此,与线性回归相比,它更难学习。 但是,如果您对数学的工作原理有基本的了解,则可以在此基础上创建 R 或 Python 编程中的包。

逻辑回归在数据科学中有多重要?

要成为一名成功的数据科学家,必须了解获取和处理数据、理解数据和构建模型、评估结果和部署数据的流程。 逻辑回归对于理解整个管道概念非常宝贵。 当您了解逻辑回归时,您会自动更好地理解机器学习概念。 此外,有时您可以仅使用逻辑回归轻松解决高度复杂的问题,特别是对于非线性问题。 逻辑回归是一种重要的统计工具,而统计是机器学习不可分割的一部分。 如果你想研究神经网络,了解逻辑回归将提供一个很好的开端。

逻辑回归真的有用吗?

尽管它的名字,逻辑回归是一个分类框架,实际上,不仅仅是回归。 它提出了一种更有效、更简单的方法或算法,可用于解决机器学习中的二元分类问题。 您可以轻松实现它并为线性可分的类实现出色的性能。 但是,当存在多个非线性决策边界时,逻辑回归往往表现不佳。 在某些情况下,据说神经网络等更紧凑的算法更高效、更强大。