Вопросы и ответы на собеседовании по логистической регрессии [для новичков и опытных]

Опубликовано: 2020-09-24

Когда дело доходит до машинного обучения, а точнее классификации, логистическая регрессия, пожалуй, самый простой и широко используемый алгоритм. Поскольку логистическую регрессию очень легко понять и реализовать, этот алгоритм идеально подходит для начинающих и людей, которые только начинают свое машинное обучение или изучение данных.

Хотя название «логистическая регрессия» может звучать как алгоритм, который можно использовать для реализации регрессии, правда далека от этого. Логистическая регрессия из-за своих нюансов больше подходит для реальной классификации экземпляров в четко определенные классы, чем для фактического выполнения задач регрессии.

В двух словах, этот алгоритм берет выходные данные линейной регрессии и применяет функцию активации, прежде чем дать нам результат. Функция активации, которую использует логистическая регрессия, представляет собой сигмовидную функцию (также известную как логистическая функция). Придерживаясь свойств сигмовидной функции, вместо того, чтобы предоставлять непрерывные значения, она просто дает число в диапазоне от нуля до единицы. После установки порогового значения классификация на основе результатов логистической регрессии становится проще простого.

Мы все знаем, как развивается область науки о данных и машинного обучения. Ежедневно создается больше возможностей. Таким образом, в этом жестоком конкурентном мире уверенность в том, что у вас есть необходимые знания, является ключом к обеспечению хорошего места в компании вашей мечты. Чтобы помочь вам в этом вашем начинании, мы подготовили список вопросов для интервью по логистической регрессии, которые должны помочь вам подготовиться к путешествию, чтобы стать профессиональным специалистом по данным или специалистом по машинному обучению.

Оглавление

Интервью по логистической регрессии Вопросы и ответы

Q1. Ответьте, используя либо ИСТИНА, либо ЛОЖЬ. Является ли логистическая регрессия типом алгоритма контролируемого машинного обучения?

Ответ Да, ответ на этот вопрос будет ИСТИННЫМ, потому что действительно логистическая регрессия — это контролируемый алгоритм машинного обучения. Простая причина заключается в том, как работает этот алгоритм. Чтобы получить результаты логистической регрессии, вам сначала нужно будет ввести в нее данные.

Вам нужно будет предоставить экземпляры и правильную маркировку этих экземпляров, чтобы он мог учиться на них и делать точные прогнозы. Алгоритму машинного обучения с учителем потребуется как целевая переменная (Y), так и экземпляры класса или переменная, используемая для предоставления входной информации (X), чтобы иметь возможность успешно обучать и делать прогнозы.

Q2. Ответьте, используя либо ИСТИНА, либо ЛОЖЬ. Используется ли логистическая регрессия в основном для классификации?

Ответ Да, ответ на этот вопрос ВЕРЕН. Действительно, логистическая регрессия в основном используется для задач классификации, а не для выполнения фактической регрессии. Мы используем линейную регрессию для регрессии. Из-за сходства между ними легко запутаться. Не делайте этой ошибки. В логистической регрессии мы используем логистическую функцию, которая представляет собой не что иное, как сигмовидную функцию активации, что значительно упрощает задачи классификации.

Q3. Ответьте на этот вопрос, используя ИСТИНА или ЛОЖЬ. Можно ли реализовать нейронную сеть, которая имитирует поведение алгоритма логистической регрессии?

Ответ Да, ответ будет ИСТИННЫМ. Нейронные сети также известны как универсальные аппроксиматоры. Их можно использовать для имитации практически любого алгоритма машинного обучения. Чтобы представить ситуацию в перспективе, если вы используете Keras API TensorFlow 2.0, все, что вам нужно, это добавить один слой в последовательную модель и сделать этот слой с сигмовидной функцией активации.

Q4. Ответьте на этот вопрос, используя либо ИСТИНА, либо ЛОЖЬ. Можем ли мы использовать логистическую регрессию для решения проблемы классификации нескольких классов?

Ответ Короткий ответ будет ИСТИНА. Однако длинный ответ заставил бы вас немного подумать. Невозможно реализовать многоклассовую классификацию, используя только одну модель логистической регрессии. Вам нужно будет либо использовать нейронную сеть с функцией активации softmax, либо использовать сложный алгоритм машинного обучения для успешного прогнозирования многих классов вашей входной переменной.

Однако есть один способ, которым вы действительно можете использовать логистическую регрессию для решения проблемы классификации нескольких классов. Это было бы с использованием подхода «один против всех». Вам нужно будет обучить n классификаторов (где n — количество классов), каждый из которых предсказывает только один класс. Итак, в случае трехклассовой классификации (скажем, A, B и C) вам нужно будет обучить два классификатора: один предсказывать A, а не A, другой предсказывать B, а не B, и последний классификатор прогнозирование C, а не C. Затем вам нужно будет взять результаты всех этих трех моделей, объединить их вместе, чтобы иметь возможность выполнить классификацию нескольких классов, используя только логистическую регрессию.

Q5. Выберите один из вариантов из списка ниже. Какой основной метод используется для подбора обучающих данных в алгоритме логистической регрессии?

  1. Жаккард Расстояние
  2. Максимальная вероятность
  3. Ошибка наименьшего квадрата
  4. Ни один из вариантов, упомянутых выше.

Ответ Ответ — B. Легко выбрать вариант C, который представляет собой ошибку наименьших квадратов, потому что это тот же метод, который используется в линейной регрессии. Однако в логистической регрессии мы не используем приближение наименьших квадратов, чтобы вписать обучающие экземпляры в модель; вместо этого мы используем максимальное правдоподобие.

Оформить заказ: идеи проекта машинного обучения

Q6. Выберите один из вариантов из списка ниже. Какой показатель мы не сможем использовать для измерения правильности модели логистической регрессии?

  1. Площадь под кривой рабочих характеристик приемника (или показатель AUC-ROC)
  2. Лог-потеря
  3. Среднеквадратическая ошибка (или MSE)
  4. Точность

Ответ Правильным вариантом, который вы должны выбрать, является C, то есть среднеквадратическая ошибка или MSE. Поскольку алгоритм логистической регрессии на самом деле является алгоритмом классификации, а не базовым алгоритмом регрессии, мы не можем использовать ошибку квадрата измерения для определения производительности модели логистической регрессии, которую мы написали. Основная причина заключается в выводе, который мы получаем от модели, и в невозможности присвоить значимое числовое значение экземпляру класса.

Q7. Выберите один из вариантов из списка ниже. AIC оказался отличным показателем для оценки эффективности модели логистической регрессии. AIC очень похож на метод R-квадрата, который используется для определения производительности алгоритма линейной регрессии. Что на самом деле правда об этом AIC?

  1. Обычно предпочтение отдается модели с низким показателем AIC.
  2. На самом деле предпочтительнее модель с огромным показателем AIC.
  3. Выбор модели только на основе оценки AIC сильно зависит от ситуации.
  4. Ни один из вариантов, упомянутых выше.

Ответ Предпочтение отдается модели с наименьшим значением AIC. Таким образом, ответом на вопрос будет вариант А. Основная причина, по которой мы выбираем модель с наименьшим возможным значением AIC, заключается в том, что штраф, который добавляется для регулирования производительности модели, на самом деле не способствует подгонке. быть законченным. Да, AIC или информационный критерий Акаике — это показатель, в котором чем ниже значение, тем лучше соответствие.

На практике мы предпочитаем модели, которые не являются ни недостаточно подогнанными (это означает, что они не могут хорошо обобщаться, поскольку выбранная нами модель недостаточно сложна, чтобы найти сложности, присутствующие в данных), ни переобученными (это означает, что модель идеально подходит для обучения). данных, и он потерял способность делать более общие прогнозы). Таким образом, мы выбираем достаточно низкий балл, чтобы избежать как недостаточного, так и переобучения.

Q8. Ответьте, используя либо ИСТИНА, либо ЛОЖЬ. Нужно ли нам стандартизировать значения, представленные в столбцах функций, прежде чем мы введем данные в обучающую модель логистической регрессии?

Ответ Нет, нам не нужно стандартизировать значения, присутствующие в пространстве признаков, которые мы должны использовать для обучения модели логистической регрессии. Таким образом, ответ на этот вопрос будет ЛОЖНЫМ. Мы решили стандартизировать все наши значения, чтобы помочь функции (обычно градиентному спуску), которая отвечает за сходимость алгоритма к значению. Поскольку этот алгоритм относительно прост, ему не нужно масштабировать суммы, чтобы он действительно имел значительную разницу в производительности.

Узнайте: 5 лучших моделей машинного обучения для начинающих

Q9. Выберите один из вариантов из списка ниже. Какой метод мы используем для выполнения задачи выбора переменных?

  1. Ридж-регрессия
  2. ЛАССО регрессия
  3. Ни один из упомянутых вариантов
  4. И LASSO, и регрессия хребта

Ответ Ответом на этот вопрос является регрессия Б. ЛАССО. Причина проста: штраф l2, который возникает в функции регрессии LASSO, может сделать коэффициент некоторых признаков равным нулю. Поскольку коэффициент равен нулю, это означает, что они не будут иметь никакого влияния на окончательный результат функции. Это означает, что эти переменные не так важны, как мы думали, и таким образом с помощью регрессии LASSO мы можем выполнить выбор переменной.

Q10. Выберите один из вариантов из списка ниже. Предположим, что у вас есть честная монета, чтобы узнать шансы выпадения орла. Каковы будут ваши расчетные шансы?

  1. Будут ли шансы получить голову равными 0
  2. Будут ли шансы получить голову равными 1
  3. Шансы получить голову равны 0,5
  4. Ни один из вариантов, упомянутых выше.

Ответ Чтобы успешно ответить на этот вопрос, вам необходимо понять значение и определение шансов. На самом деле шансы определяются как отношение двух вероятностей — вероятности того, что событие произойдет, к вероятности того, что оно не произойдет, для какого-либо конкретного события. В случае любой честной монеты вероятность выпадения орла и вероятность выпадения орла одинаковы. Таким образом, шансы получить головы равны.

Q11. Выберите правильный ответ из предложенных ниже вариантов. Логит-функция определяется как логарифм функции шансов. Как вы думаете, каков диапазон этой логит-функции в области значений [0,1]?

  1. (-бесконечность, +бесконечность)
  2. (0, +бесконечность)
  3. (-бесконечность, 0)
  4. (0, 1)

Ответ Функция вероятности принимает значение, с которым она передается, и превращает его в вероятность. Это означает, что диапазон любой функции ограничен между нулем и единицей. Однако функция шансов делает одну вещь: она берет значение из функции вероятности и делает его диапазон от нуля до бесконечности.

Таким образом, эффективный вход в логарифмическую функцию будет от нуля до бесконечности. Мы знаем, что диапазон логарифмической функции в этой области — это вся прямая с действительными числами или от отрицательной бесконечности до положительной бесконечности. Итак, ответ на этот вопрос — вариант А.

Q12. Выберите вариант, который вы считаете ИСТИННЫМ, из списка ниже:

  1. Значения ошибок в случае линейной регрессии должны следовать нормальному распределению, но в случае логистической регрессии значения не должны следовать стандартному нормальному распределению.
  2. Значения ошибок в случае логистической регрессии должны следовать нормальному распределению, но в случае линейной регрессии значения не должны следовать стандартному нормальному распределению.
  3. Значения ошибок как в случае линейной регрессии, так и в случае логистической регрессии должны следовать нормальному распределению.
  4. Значения ошибок как в случае линейной регрессии, так и в случае логистической регрессии не должны следовать нормальному распределению.

Ответ Единственным правдивым утверждением в куче этих утверждений является первое. Итак, ответом на вопрос становится вариант А.

Q13. Выберите правильный вариант (ы) из списка вариантов ниже. Итак, допустим, вы применили модель логистической регрессии к любым заданным данным. Результаты точности, которые вы получили: X для обучающего набора и Y для тестового набора. Теперь вы хотели бы добавить больше точек данных в вашу модель. Так что же, по-вашему, должно произойти?

  1. Точность X, которую мы получили в тренировочных данных, должна увеличиться.
  2. Точность X, которую мы получили из тренировочных данных, должна уменьшиться.
  3. Точность Y, которую мы получили из тестовых данных, должна уменьшиться.
  4. Точность Y, которую мы получили из тестовых данных, должна увеличиться или остаться прежней.

Ответ Точность обучения сильно зависит от соответствия модели данным, которые она уже видела и изучила. Итак, предположим, что мы увеличиваем количество функций, подаваемых в модель, точность обучения X увеличивается. В этом случае точность обучения возрастет, потому что модель должна будет усложниться, чтобы должным образом соответствовать данным с увеличенным числом признаков.

В то время как точность тестирования будет увеличиваться только в том случае, если функция, добавленная в модель, является отличной и значимой функцией, иначе точность модели при тестировании останется более или менее неизменной. Таким образом, ответом на этот вопрос будут оба варианта A и D.

Q14. Выберите правильный вариант из следующих вариантов, касающихся метода «один против всех» с точки зрения логистической регрессии.

  1. Нам потребуется всего n моделей, чтобы правильно классифицировать n классов.
  2. Нам потребуется n-1 моделей для классификации между n классами.
  3. Нам потребуется только одна единственная модель для успешной классификации между n классами.
  4. Ни один из вариантов, упомянутых выше.

Ответ Чтобы классифицировать между n различными классами, нам понадобится n моделей в подходе «один против всех».

Q15. Посмотрите на график ниже и ответьте на вопрос, выбрав один вариант из перечисленных ниже вариантов. Сколько локальных минимумов вы видите на графике?

  1. На графике есть только один локальный минимум.
  2. На этом графике есть два локальных минимума.
  3. На этом графике есть три локальных минимума.
  4. На этом графике имеется четыре локальных минимума.

Ответ Поскольку наклон графика становится равным нулю в четырех различных точках (где график имеет форму буквы U), можно с уверенностью сказать, что он будет иметь четыре локальных минимума, так что ответ будет D.

Читайте также: Линейная регрессия vs. Логистическая регрессия

Что дальше?

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Сложно ли научиться логистической регрессии?

Когда дело доходит до науки о данных, как логистическая, так и линейная регрессия широко используются для решения различных типов вычислительных задач. И чтобы эффективно работать в области науки о данных, вы должны понимать и чувствовать себя комфортно с обоими этими типами регрессионных моделей. Из названия можно догадаться, что логистическая регрессия использует более сложную модель уравнений. Таким образом, этому сложнее научиться по сравнению с линейной регрессией. Однако, если у вас есть общее представление о том, как работает математика, вы можете использовать ее для создания пакетов в программировании на R или Python.

Насколько важна логистическая регрессия в науке о данных?

Чтобы стать успешным специалистом по данным, важно понимать конвейер сбора и обработки данных, понимания данных и построения модели, оценки результатов и ее развертывания. И логистическая регрессия бесценна для понимания всей этой концепции пайплайна. Когда вы понимаете логистическую регрессию, вы автоматически лучше понимаете концепции машинного обучения. Более того, иногда можно легко решить очень сложные задачи, используя только логистическую регрессию, особенно для нелинейных задач. Логистическая регрессия — жизненно важный статистический инструмент, а статистика — неотъемлемая часть машинного обучения. И если вы хотите изучать нейронные сети, знание логистической регрессии станет отличным стартом.

Действительно ли логистическая регрессия полезна?

Несмотря на свое название, логистическая регрессия — это скорее классификационная структура, чем регрессия. В нем представлен более эффективный и простой метод или алгоритм, который можно использовать для решения задач бинарной классификации в машинном обучении. Вы можете легко реализовать это и добиться отличной производительности для классов, которые линейно разделимы. Однако, когда есть несколько нелинейных границ решений, логистическая регрессия имеет тенденцию работать хуже. В некоторых случаях более компактные алгоритмы, такие как нейронные сети, считаются более эффективными и мощными.