33 вопроса и ответа на собеседовании по машинному обучению — логистическая регрессия

Опубликовано: 2018-07-05

Добро пожаловать во вторую часть серии часто задаваемых вопросов на собеседованиях, основанных на алгоритмах машинного обучения. Мы надеемся, что предыдущий раздел о линейной регрессии был вам полезен.

Оглавление

Найдем ответы на вопросы по логистической регрессии:
- 1. Что такое логистическая функция? Каков диапазон значений логистической функции?
- 2. Почему логистическая регрессия так популярна?
- 3. Какова формула функции логистической регрессии?
- 4. Как вероятность модели логистической регрессии может быть выражена как условная вероятность?
- 5. Что такое шансы?
- 6. Каковы результаты логистической модели и логистической функции?
- 7. Как интерпретировать результаты модели логистической регрессии? Или каковы значения альфа и бета в модели логистической регрессии?
- 8. Что такое отношение шансов?
- 9. По какой формуле рассчитывается отношение шансов?
- 10. Почему нельзя использовать линейную регрессию вместо логистической регрессии для бинарной классификации?
- 11. Является ли граница решения линейной или нелинейной в случае модели логистической регрессии?
- 12. Что такое функция правдоподобия?
- 13. Что такое оценщик максимального правдоподобия (MLE)?
- 14. Какие существуют методы MLE и когда каждый метод предпочтительнее?
- 15. Каковы преимущества и недостатки условного и безусловного методов MLE?
- 16. Что выдает стандартная программа MLE?
- 17. Почему мы не можем использовать среднеквадратичную ошибку (MSE) в качестве функции стоимости для логистической регрессии?
- 18. Почему точность не является хорошей мерой для задач классификации?
- 19. Каково значение базовой линии в задаче классификации?
- 20. Что такое ложноположительные и ложноотрицательные результаты?
- 21. Каковы частота истинно положительных результатов (TPR), доля истинно отрицательных результатов (TNR), частота ложноположительных результатов (FPR) и частота ложноотрицательных результатов (FNR)?
- 22. Что такое точность и полнота?
- 23. Что такое F-мера?
- 24. Что такое точность?
- 25. Что такое чувствительность и специфичность?
- 26. Как выбрать точку отсечения в случае модели логистической регрессии?
- 27. Как логистическая регрессия обрабатывает категориальные переменные?
- 28. Что такое кумулятивная кривая отклика (CRV)?
- 29. Что такое кривые подъема?
- 30. Какой алгоритм лучше справляется с выбросами: логистическая регрессия или SVM?
- 31. Как вы будете решать проблему мультиклассовой классификации с помощью логистической регрессии?
- 32. Объясните использование кривых ROC и AUC кривой ROC.
- 33. Как вы можете использовать концепцию ROC в мультиклассовой классификации?
Что представляют собой совокупные диаграммы усиления и подъема?
Какие предположения делаются при использовании логистической регрессии?
Могу ли я получить работу специалиста по данным, если у меня есть хорошие знания в области машинного обучения?

Найдем ответы на вопросы по логистической регрессии:

1. Что такое логистическая функция? Каков диапазон значений логистической функции?

f(z) = 1/(1+e- ^z )
Значения логистической функции будут варьироваться от 0 до 1. Значения Z будут варьироваться от -бесконечности до +бесконечности.

2. Почему логистическая регрессия так популярна?

Логистическая регрессия известна тем, что она может преобразовывать значения логитов (logodds), которые могут находиться в диапазоне от -бесконечности до +бесконечности, в диапазон от 0 до 1. Поскольку логистические функции выводят вероятность возникновения события, их можно применять к множество реальных сценариев. Именно по этой причине модель логистической регрессии очень популярна.

3. Какова формула функции логистической регрессии?

f(z) = 1/(1+e- ^{(α+1X1+2X2+….+kXk)} )
Разница между наукой о данных, машинным обучением и большими данными!

4. Как вероятность модели логистической регрессии может быть выражена как условная вероятность?

P(Дискретное значение целевой переменной | X1, X2, X3….Xk). Это вероятность того, что целевая переменная примет дискретное значение (0 или 1 в случае проблем с бинарной классификацией), когда заданы значения независимых переменных. Например, вероятность увольнения работника (целевая переменная) с учетом его атрибутов, таких как возраст, зарплата, KRA и т. д.

5. Что такое шансы?

Это отношение вероятности того, что событие произойдет, к вероятности того, что событие не произойдет. Например, предположим, что вероятность выиграть в лотерею равна 0,01. Тогда вероятность не выиграть равна 1-0,01 = 0,99.
Шансы на выигрыш в лотерею = (вероятность выигрыша)/(вероятность не выигрыша)
Шансы на выигрыш в лотерею = 0,01/0,99.
Шансы выиграть в лотерею составляют 1 к 99, а шансы не выиграть в лотерею — 99 к 1.

6. Каковы результаты логистической модели и логистической функции?

Логистическая модель выводит логиты, т.е. логарифмические шансы; и логистическая функция выводит вероятности.
Логистическая модель = α+1X1+2X2+….+kXk. Результатом того же будут логиты.
Логистическая функция = f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) . Выходом в этом случае будут вероятности.

7. Как интерпретировать результаты модели логистической регрессии? Или каковы значения альфа и бета в модели логистической регрессии?

Альфа является базовой линией в модели логистической регрессии. Это логарифмические шансы для случая, когда все атрибуты (X1, X2,………….Xk) равны нулю. В практических сценариях вероятность того, что все атрибуты равны нулю, очень мала. В другой интерпретации альфа представляет собой логарифмическую вероятность для случая, когда ни один из атрибутов не принимается во внимание.
Бета — это значение, на которое логарифмические шансы изменяются на единицу изменения определенного атрибута при сохранении фиксированными или неизменными всех других атрибутов (управляющие переменные).

8. Что такое отношение шансов?

Отношение шансов — это отношение шансов между двумя группами. Например, предположим, что мы пытаемся установить эффективность лекарства. Мы вводили это лекарство группе «вмешательства» и плацебо группе «контроль».
Отношение шансов (OR) = (шансы группы вмешательства)/(шансы контрольной группы)
Интерпретация
Если отношение шансов = 1, то разницы между группой вмешательства и контрольной группой нет.
Если отношение шансов больше 1, то контрольная группа лучше, чем группа вмешательства.
Если отношение шансов меньше 1, то группа вмешательства лучше, чем контрольная группа.
5 прорывных приложений машинного обучения

9. По какой формуле рассчитывается отношение шансов?

В приведенной выше формуле X ₁ и X ₀ обозначают две разные группы, для которых необходимо рассчитать отношение шансов. X _{1 i} обозначает экземпляр ' i ' в группе X ₁ . X _{o i} обозначает экземпляр ' i ' в группе X ₀ . обозначает коэффициент модели логистической регрессии. Обратите внимание, что базовый уровень не включен в эту формулу.

10. Почему нельзя использовать линейную регрессию вместо логистической регрессии для бинарной классификации?

Причины, по которым линейные регрессии нельзя использовать в случае бинарной классификации, следующие:
Распределение ошибок : распределение данных в случае линейной и логистической регрессии отличается. Линейная регрессия предполагает, что члены ошибки нормально распределены. В случае бинарной классификации это предположение не выполняется.
Выходные данные модели : в линейной регрессии выходные данные непрерывны. В случае бинарной классификации вывод непрерывного значения не имеет смысла. Для задач бинарной классификации линейная регрессия может предсказывать значения, которые могут выходить за пределы 0 и 1. Если мы хотим получить результат в виде вероятностей, которые можно сопоставить с двумя разными классами, то ее диапазон должен быть ограничен 0 и 1. Поскольку модель логистической регрессии может выводить вероятности с логистической/сигмоидной функцией, она предпочтительнее линейной регрессии.
Дисперсия остаточных ошибок : линейная регрессия предполагает, что дисперсия случайных ошибок постоянна. Это предположение также нарушается в случае логистической регрессии.

11. Является ли граница решения линейной или нелинейной в случае модели логистической регрессии?

Граница решения — это линия, которая разделяет целевые переменные на разные классы. Граница решения может быть линейной или нелинейной. В случае модели логистической регрессии граница решения представляет собой прямую линию.
Формула модели логистической регрессии = α+1X1+2X2+….+kXk. Это явно представляет собой прямую линию. Логистическая регрессия подходит только в тех случаях, когда прямая линия может разделить разные классы. Если прямая линия не может этого сделать, то для достижения лучших результатов следует использовать нелинейные алгоритмы.

12. Что такое функция правдоподобия?

Функция правдоподобия — это совместная вероятность наблюдения данных. Например, предположим, что монета подбрасывается 100 раз, и мы хотим узнать вероятность того, что при подбрасывании выпадет 60 решек. Этот пример соответствует формуле биномиального распределения.
p = вероятность выпадения орла при одном подбрасывании монеты.
n = 100 (количество подбрасываний монеты)
х = 60 (количество голов – успех)
nx = 30 (количество решек)
Pr(X=60 |n = 100, p)
Функция правдоподобия — это вероятность того, что количество выпавших орлов равно 60 при 100 подбрасываниях монеты, где вероятность выпадения орла при каждом подбрасывании монеты равна p. Здесь результат подбрасывания монеты следует биномиальному распределению.
Это можно переформулировать следующим образом:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
с = постоянная
p = неизвестный параметр
Функция правдоподобия дает вероятность наблюдения результатов с использованием неизвестных параметров.

13. Что такое оценщик максимального правдоподобия (MLE)?

MLE выбирает те наборы неизвестных параметров (оценщик), которые максимизируют функцию правдоподобия. Метод нахождения MLE заключается в использовании исчисления и установке производной логистической функции по неизвестному параметру на ноль, и ее решение даст MLE. Для биномиальной модели это будет легко, а для логистической модели вычисления сложны. Компьютерные программы используются для получения MLE для логистических моделей.
(Вот еще один подход к ответу на вопрос.)
MLE — это статистический подход к оценке параметров математической модели. MLE и оценка с помощью обычного квадрата дают одинаковые результаты для линейной регрессии, если предполагается, что зависимая переменная имеет нормальное распределение. MLE ничего не предполагает о независимых переменных.

14. Какие существуют методы MLE и когда каждый метод предпочтительнее?

В случае логистической регрессии есть два подхода MLE. Это условный и безусловный методы. Условные и безусловные методы — это алгоритмы, использующие разные функции правдоподобия. Безусловная формула использует совместную вероятность положительного (например, оттока) и отрицательного (например, отсутствия оттока). Условная формула представляет собой отношение вероятности наблюдаемых данных к вероятности всех возможных конфигураций.
Безусловный метод предпочтительнее, если количество параметров меньше количества экземпляров. Если количество параметров велико по сравнению с количеством экземпляров, то предпочтение отдается условному MLE. Статистики предполагают, что условный MLE следует использовать в случае сомнений. Условный MLE всегда будет давать беспристрастные результаты.
Эти 6 методов машинного обучения улучшают здравоохранение

15. Каковы преимущества и недостатки условного и безусловного методов MLE?

Условные методы не оценивают нежелательные параметры. Безусловные методы также оценивают значения нежелательных параметров. Безусловные формулы могут быть разработаны непосредственно с совместными вероятностями. Это невозможно сделать с условной вероятностью. Если количество параметров велико по сравнению с количеством экземпляров, то безусловный метод даст необъективные результаты. Условные результаты в таких случаях будут беспристрастными.

16. Что выдает стандартная программа MLE?

Вывод стандартной программы MLE выглядит следующим образом:
Значение максимального правдоподобия : это числовое значение, полученное путем замены неизвестных значений параметров в функции правдоподобия оценщиком параметра MLE.
Оценочная дисперсионно-ковариационная матрица : Диагональ этой матрицы состоит из предполагаемых дисперсий оценок ML. Недиагональ состоит из ковариаций пар оценок ML.

17. Почему мы не можем использовать среднеквадратичную ошибку (MSE) в качестве функции стоимости для логистической регрессии?

В логистической регрессии мы используем сигмовидную функцию и выполняем нелинейное преобразование для получения вероятностей. Возведение этого нелинейного преобразования в квадрат приведет к невыпуклости с локальными минимумами. Поиск глобального минимума в таких случаях с помощью градиентного спуска невозможен. По этой причине MSE не подходит для логистической регрессии. Перекрестная энтропия или логарифмическая потеря используются в качестве функции стоимости для логистической регрессии. В функции стоимости для логистической регрессии уверенные неправильные прогнозы сильно наказываются. Уверенные правильные прогнозы вознаграждаются меньше. Путем оптимизации этой функции стоимости достигается конвергенция.

18. Почему точность не является хорошей мерой для задач классификации?

Точность не является хорошей мерой для проблем классификации, поскольку она придает одинаковое значение как ложноположительным, так и ложноотрицательным результатам. Однако это может быть не так в большинстве бизнес-задач. Например, в случае прогнозирования рака объявление рака доброкачественным более серьезно, чем ошибочное информирование пациента о том, что он болен раком. Точность придает одинаковое значение обоим случаям и не может различать их.

19. Каково значение базовой линии в задаче классификации?

Большинство проблем классификации связано с несбалансированными наборами данных. Примеры включают текучесть кадров в телекоммуникациях, увольнение сотрудников, прогнозирование рака, обнаружение мошенничества, таргетинг онлайн-рекламы и так далее. Во всех этих задачах количество положительных классов будет очень низким по сравнению с отрицательными классами. В некоторых случаях обычно положительные классы составляют менее 1% от общей выборки. В таких случаях точность 99% может звучать очень хорошо, но на самом деле это может быть не так.
Здесь негативы составляют 99%, и, следовательно, базовый уровень останется прежним. Если алгоритмы предсказывают все экземпляры как отрицательные, то точность также будет 99%. В этом случае все плюсы будут предсказаны неверно, что очень важно для любого бизнеса. Несмотря на то, что все положительные результаты предсказаны неверно, достигается точность 99%. Таким образом, исходный уровень очень важен, и алгоритм необходимо оценивать относительно исходного уровня.

20. Что такое ложноположительные и ложноотрицательные результаты?

Ложноположительные результаты — это те случаи, когда отрицательные значения ошибочно предсказываются как положительные. Например, предсказывая, что клиент уйдет, когда на самом деле он не уйдет.
Ложноотрицательные результаты — это те случаи, когда положительные результаты ошибочно предсказываются как отрицательные. Например, предсказывая, что клиент не уйдет, когда он действительно уйдет.

21. Каковы частота истинно положительных результатов (TPR), доля истинно отрицательных результатов (TNR), частота ложноположительных результатов (FPR) и частота ложноотрицательных результатов (FNR)?

TPR относится к соотношению положительных результатов, правильно предсказанных по всем истинным меткам. Проще говоря, это частота правильно предсказанных истинных меток.
ТПР = ТП/ТП+FN
TNR относится к соотношению отрицательных результатов, правильно предсказанных из всех ложных меток. Это частота правильно предсказанных ложных меток.
TNR = TN/TN+FP
FPR относится к отношению положительных результатов, неверно предсказанных из всех истинных меток. Это частота неверно предсказанных ложных меток.
FPR = FP/TN+FP
FNR относится к отношению отрицательных результатов, неправильно предсказанных из всех ложных меток. Это частота неверно предсказанных истинных меток.
ФНР = ФН/ТП+ФН

22. Что такое точность и полнота?

Точность — это доля истинных положительных результатов от прогнозируемых положительных результатов. Другими словами, это точность предсказания. Он также известен как «положительная прогностическая ценность».
Точность = TP/TP+FP
Отзыв такой же, как истинно положительный показатель (TPR).
Как работает неконтролируемое машинное обучение?

23. Что такое F-мера?

Это гармоническое среднее точности и отзыва. В некоторых случаях будет компромисс между точностью и отзывом. В таких случаях F-мера будет падать. Он будет высоким, когда и точность, и отзыв будут высокими. В зависимости от рассматриваемого бизнес-кейса и цели анализа данных следует выбрать соответствующую метрику.
F-мера = 2 X (точность X отзыв) / (точность+отзыв)

24. Что такое точность?

Это количество правильных прогнозов из всех сделанных прогнозов.
Точность = (TP+TN)/(общее количество прогнозов)

25. Что такое чувствительность и специфичность?

Специфичность такая же, как у истинно отрицательного показателя, или равна 1 – ложноположительный показатель.
Специфичность = TN/TN + FP.
Чувствительность - это истинный положительный показатель.
Чувствительность = TP/TP + FN

26. Как выбрать точку отсечения в случае модели логистической регрессии?

Точка отсечки зависит от бизнес-цели. В зависимости от целей вашего бизнеса необходимо выбрать точку отсечки. Например, давайте рассмотрим дефолты по кредиту. Если бизнес-цель состоит в том, чтобы уменьшить потери, то специфичность должна быть высокой. Если целью является увеличение прибыли, то это совсем другое дело. Не исключено, что прибыль увеличится за счет отказа от выдачи кредитов во всех прогнозируемых случаях дефолта. Но может случиться так, что бизнесу придется выдавать кредиты в случаях дефолта, которые несколько менее рискованны, чтобы увеличить прибыль. В таком случае потребуется другая точка отсечки, максимизирующая прибыль. В большинстве случаев предприятия будут работать с множеством ограничений. Точка отсечки, которая удовлетворяет бизнес-цели, не будет одной и той же с ограничениями и без них. Точка отсечки должна быть выбрана с учетом всех этих моментов. Как правило, выбирайте пороговое значение, эквивалентное доле положительных результатов в наборе данных.

Что такое машинное обучение и почему это важно

27. Как логистическая регрессия обрабатывает категориальные переменные?

Входные данные для модели логистической регрессии должны быть числовыми. Алгоритм не может обрабатывать категориальные переменные напрямую. Значит, их нужно преобразовать в формат, подходящий для обработки алгоритмом. Разным уровням категориальной переменной будет присвоено уникальное числовое значение, известное как фиктивная переменная. Эти фиктивные переменные обрабатываются моделью логистической регрессии как любые другие числовые значения.

28. Что такое кумулятивная кривая отклика (CRV)?

Чтобы передать результаты анализа руководству, используется «кумулятивная кривая отклика», которая более наглядна, чем кривая ROC. Кривую ROC очень сложно понять человеку, не связанному с наукой о данных. CRV состоит из истинно положительного показателя или процента положительных результатов, правильно классифицированных по оси Y, и процента целевой популяции по оси X. Важно отметить, что процент населения будет ранжироваться моделью в порядке убывания (либо вероятностей, либо ожидаемых значений). Если модель хороша, то при нацеливании на верхнюю часть ранжированного списка будут зафиксированы все высокие проценты положительных результатов. Как и на кривой ROC, здесь будет диагональная линия, представляющая случайную производительность. Давайте разберем эту случайную производительность в качестве примера. Предполагая, что таргетировано 50% списка, ожидается, что он захватит 50% положительных результатов. Это ожидание отражено диагональной линией, похожей на кривую ROC.

29. Что такое кривые подъема?

Подъем — это улучшение производительности модели (увеличение истинной положительной скорости) по сравнению со случайной производительностью. Случайная производительность означает, что если целевыми являются 50% экземпляров, ожидается, что он обнаружит 50% положительных результатов. Подъем сравнивается со случайной производительностью модели. Если производительность модели лучше, чем ее случайная производительность, то ее подъем будет больше 1.
На кривой прироста прирост откладывается по оси Y, а процент населения (отсортированный в порядке убывания) по оси X. При заданном проценте целевой аудитории предпочтение отдается модели с высоким подъемом.

30. Какой алгоритм лучше справляется с выбросами: логистическая регрессия или SVM?

Логистическая регрессия найдет линейную границу, если она существует для учета выбросов. Логистическая регрессия сдвинет линейную границу, чтобы учесть выбросы. SVM нечувствителен к отдельным образцам. Не будет значительного сдвига линейной границы для размещения выброса. SVM поставляется со встроенными элементами управления сложностью, которые заботятся о переоснащении. Это неверно в случае логистической регрессии.

31. Как вы будете решать проблему мультиклассовой классификации с помощью логистической регрессии?

Самый известный метод работы с многоклассовой классификацией с использованием логистической регрессии — использование подхода «один против всех». При таком подходе обучается количество моделей, равное количеству классов. Модели работают по-особому. Например, первая модель классифицирует точку данных в зависимости от того, принадлежит ли она классу 1 или другому классу; вторая модель относит точку данных к классу 2 или другому классу. Таким образом, каждую точку данных можно проверить по всем классам.

32. Объясните использование кривых ROC и AUC кривой ROC.

Кривая ROC (рабочая характеристика приемника) иллюстрирует производительность модели бинарной классификации. По сути, это кривая TPR по сравнению с FPR (истинная положительная частота по сравнению с ложноположительной частотой) для всех пороговых значений в диапазоне от 0 до 1. На кривой ROC каждая точка в пространстве ROC будет связана с другой матрицей путаницы. Диагональная линия из левого нижнего угла в правый верхний на графике ROC представляет собой случайное угадывание. Площадь под кривой (AUC) показывает, насколько хороша модель классификатора. Если значение AUC высокое (около 1), то модель работает удовлетворительно, а если значение низкое (около 0,5), то модель работает неправильно и просто угадывает случайным образом.

33. Как вы можете использовать концепцию ROC в мультиклассовой классификации?

Концепцию кривых ROC можно легко использовать для многоклассовой классификации с использованием подхода «один против всех». Например, предположим, что у нас есть три класса «a», «b» и «c». Тогда первый класс включает класс «а» (истинный класс), а второй класс включает класс «b» и класс «с» вместе (ложный класс). Таким образом, строится ROC-кривая. Точно так же для всех трех классов мы построим три ROC-кривые и проведем анализ AUC.
До сих пор мы рассмотрели два самых основных алгоритма машинного обучения, линейную и логистическую регрессию, и надеемся, что эти ресурсы оказались вам полезными.

Изучите курс машинного обучения в лучших университетах мира. Заработайте программы Masters, Executive PGP или Advanced Certificate Programs, чтобы ускорить свою карьеру.

Инженеры по машинному обучению: мифы против реальности

Следующая часть этой серии основана на другом очень важном алгоритме машинного обучения — кластеризации . Не стесняйтесь оставлять свои сомнения и вопросы в разделе комментариев ниже.
Соавтор — Оджас Агарвал

Что представляют собой совокупные диаграммы усиления и подъема?

Диаграмма Gain and Lift — это визуальный подход к оценке эффективности нескольких моделей машинного обучения различными способами. Помимо того, что они помогают вам оценить, насколько успешна ваша модель прогнозирования, они визуально отображают, насколько скорость ответа целевой группы отличается от скорости ответа случайно выбранной группы. Эти диаграммы полезны в корпоративных условиях, таких как целевой маркетинг. Они также могут применяться в других областях, таких как моделирование рисков, аналитика цепочки поставок и так далее. Другими словами, диаграммы усиления и подъема — это два способа справиться с трудностями классификации, связанными с несбалансированными наборами данных.

Какие предположения делаются при использовании логистической регрессии?

При использовании логистической регрессии делаются некоторые предположения. Один из них заключается в том, что непрерывные предикторы не имеют влиятельных значений (экстремальных значений или выбросов). Логистическая регрессия, которая делится на два класса, предполагает, что зависимая переменная является бинарной, тогда как упорядоченная логистическая регрессия требует, чтобы зависимая переменная была упорядоченной. Также предполагается, что между предикторами нет существенных взаимокорреляций (т.е. мультиколлинеарности). Он также считает, что наблюдения независимы друг от друга.

Могу ли я получить работу специалиста по данным, если у меня есть хорошие знания в области машинного обучения?

Data Scientist собирает, анализирует и интерпретирует огромные объемы данных, используя сложные аналитические технологии, такие как машинное обучение и прогнозное моделирование. Затем они используются руководителями компаний для принятия наилучших деловых решений. Таким образом, в дополнение к другим навыкам, таким как интеллектуальный анализ данных и понимание методологий статистических исследований, машинное обучение является критически важной компетенцией для Data Scientist. Но если вы хотите работать специалистом по данным, вы также должны быть знакомы с платформами и технологиями больших данных, такими как Hadoop, Pig, Hive, Spark и другими, а также с языками программирования, такими как SQL, Python и другими.