Регуляризация в машинном обучении: как избежать переобучения?

Опубликовано: 2020-02-17

Машинное обучение включает в себя оснащение компьютеров для выполнения определенных задач без явных инструкций. Таким образом, системы запрограммированы на автоматическое обучение и совершенствование на основе полученного опыта. Специалисты по данным обычно используют регуляризацию в машинном обучении для настройки своих моделей в процессе обучения. Давайте разберемся с этой концепцией в деталях.

Оглавление

Регуляризация уклоняется от переобучения
Баланс смещения и дисперсии
Повышение интерпретируемости модели
- Объяснение регуляризации в машинном обучении
- Регуляризация хребта
- Регуляризация лассо
- RSS и предикторы функций ограничений
Как регуляризация достигает баланса
Заключение
Каковы ваши варианты работы после изучения машинного обучения?
Какую зарплату получает инженер по машинному обучению в год?
Каков необходимый набор навыков для машинного обучения?

Регуляризация уклоняется от переобучения

Регуляризация в машинном обучении позволяет избежать переобучения модели обучения. Переоснащение происходит, когда ваша модель захватывает произвольные данные в вашем наборе обучающих данных. Такие точки данных, которые не обладают свойствами ваших данных, делают вашу модель «зашумленной». Этот шум может сделать вашу модель более гибкой, но может вызвать проблемы с низкой точностью.

Рассмотрим класс из 10 учеников с равным количеством девочек и мальчиков. Общая оценка класса на ежегодном экзамене — 70. Средний балл учениц — 60, а учащихся мужского пола — 80. Основываясь на этих прошлых баллах, мы хотим предсказать будущие баллы учащихся. Прогнозы можно делать следующими способами:

Under Fit: Весь класс наберет 70 баллов.
Оптимальное соответствие: это может быть упрощенная модель, предсказывающая оценку девочек как 60 и мальчиков как 80 (как и в прошлый раз).
Over Fit: эта модель может использовать несвязанный атрибут, например, номер броска, чтобы предсказать, что учащиеся получат точно такие же оценки, как и в прошлом году.

Регуляризация — это форма регрессии, которая корректирует функцию ошибок, добавляя еще один штрафной член. Этот дополнительный член не дает коэффициентам принимать экстремальные значения, тем самым уравновешивая чрезмерно флуктуирующую функцию.

Любой эксперт по машинному обучению будет стремиться сделать свои модели точными и безошибочными. И ключ к достижению этой цели заключается в том, чтобы найти компромисс между предвзятостью и дисперсией. Читайте дальше, чтобы получить четкое представление о том, что это значит.

Баланс смещения и дисперсии

Ожидаемую ошибку теста можно свести к минимуму, найдя метод, обеспечивающий правильный баланс «смещение-дисперсия». Другими словами, выбранный вами метод статистического обучения должен оптимизировать модель, одновременно реализуя низкую дисперсию и низкое смещение. Модель с высокой дисперсией является переобученной, а высокое смещение приводит к недостаточной подгонке модели.

Перекрестная проверка предлагает еще один способ избежать переобучения. Он проверяет, выбирает ли ваша модель правильные шаблоны из набора данных, и оценивает ошибку по вашему тестовому набору. Таким образом, этот метод в основном проверяет стабильность вашей модели. Кроме того, он определяет параметры, которые лучше всего подходят для вашей конкретной модели.

Повышение интерпретируемости модели

Цель состоит не только в том, чтобы получить нулевую ошибку для обучающего набора, но и в том, чтобы предсказать правильные целевые значения из набора тестовых данных. Итак, нам нужна «настроенная» функция, которая снижает сложность этого процесса.

Объяснение регуляризации в машинном обучении

Регуляризация — это форма ограниченной регрессии, которая работает за счет уменьшения оценок коэффициентов до нуля. Таким образом, это ограничивает способность моделей учиться на шуме.

Давайте посмотрим на это уравнение линейной регрессии:

Y= β0+β1X1+β2X2+…..+βpXp

Здесь β обозначает оценки коэффициентов для различных предикторов, представленных (X). И Y - изученное отношение.

Поскольку сама эта функция может столкнуться с ошибками, мы добавим функцию ошибок, чтобы упорядочить полученные оценки. Мы хотим минимизировать ошибку в этом случае, чтобы мы могли также назвать ее функцией потерь. Вот как выглядит эта функция потерь или остаточная сумма квадратов (RSS):

Поэтому специалисты по данным используют регуляризацию для настройки функции прогнозирования. Методы регуляризации также известны как методы усадки или снижения веса. Давайте разберем некоторые из них подробно.

Регуляризация хребта

В гребневой регрессии функция потерь модифицируется с помощью величины усадки, соответствующей сумме квадратов значений β. И значение λ определяет, насколько сильно модель будет оштрафована.

Оценки коэффициентов в ридж-регрессии называются нормой L2. Этот метод регуляризации придет вам на помощь, когда независимые переменные в ваших данных сильно коррелированы.

Регуляризация лассо

В методе Лассо к функции ошибок добавляется штраф, равный сумме абсолютных значений β (модуль β). Далее он умножается на параметр λ, который определяет силу штрафа. В этом методе штрафуются только высокие коэффициенты.

Оценки коэффициентов, полученные Лассо, называются нормой L1. Этот метод особенно удобен, когда имеется небольшое количество наблюдений с большим количеством признаков.

Чтобы упростить описанные выше подходы, рассмотрим константу s, которая существует для каждого значения λ. Теперь при регуляризации L2 мы решаем уравнение, в котором сумма квадратов коэффициентов меньше или равна s. В то время как при регуляризации L1 сумма модулей коэффициентов должна быть меньше или равна s.

Читайте: Машинное обучение против нейронных сетей

Оба упомянутых выше метода направлены на то, чтобы модель регрессии не использовала ненужные атрибуты. По этой причине Ридж-регрессия и Лассо также известны как функции ограничений.

RSS и предикторы функций ограничений

С помощью предыдущих объяснений функции потерь (RSS) для регрессии гребня и лассо могут быть заданы как β1² + β2² ≤ s и |β1| + |β2| ≤ с соответственно. β1² + β2² ≤ s образует круг, и RSS будет наименьшим для всех точек, лежащих в нем. Что касается функции Лассо, RSS будет наименьшим для всех точек, лежащих в пределах ромба, заданного |β1| + |β2| ≤ с.

Ридж-регрессия уменьшает оценки коэффициентов для наименее важных переменных-предикторов, но не устраняет их. Следовательно, окончательная модель может содержать все предикторы из-за ненулевых оценок. С другой стороны, Лассо может заставить некоторые коэффициенты быть точно равными нулю, особенно когда λ велико.

Читайте: Библиотеки Python для машинного обучения

Как регуляризация достигает баланса

Существует некоторая дисперсия, связанная со стандартной моделью наименьших квадратов. Методы регуляризации уменьшают дисперсию модели без значительного увеличения ее квадрата смещения. И значение параметра настройки, λ, управляет этим балансом, не устраняя критических свойств данных. Штраф не действует, когда значение λ равно нулю, что является случаем обычной регрессии методом наименьших квадратов.

Дисперсия уменьшается только при увеличении значения λ. Но это происходит только до определенного момента, после которого уклон может начать расти. Таким образом, выбор значения этого коэффициента усадки является одним из наиболее важных шагов в регуляризации.

Заключение

В этой статье мы узнали о регуляризации в машинном обучении и ее преимуществах, а также изучили такие методы, как гребневая регрессия и лассо. Наконец, мы поняли, как методы регуляризации помогают повысить точность регрессионных моделей. Если вы только начинаете заниматься регуляризацией, эти ресурсы разъяснят вам основы и побудят вас сделать этот первый шаг!

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, 5+ практических проектов и помощь в трудоустройстве в ведущих фирмах.

Каковы ваши варианты работы после изучения машинного обучения?

Машинное обучение — одно из самых последних и многообещающих направлений карьеры в сфере технологий. По мере того, как машинное обучение продолжает развиваться и расширяться, оно открывает новые возможности трудоустройства для людей, которые стремятся сделать карьеру в этой области технологий. Студенты и специалисты, которые хотят работать инженерами по машинному обучению, могут рассчитывать на полезный и захватывающий опыт обучения и, конечно же, рассчитывать на получение работы в ведущих организациях с хорошим заработком. Начиная с специалистов по обработке и анализу данных и инженеров по машинному обучению, заканчивая компьютерными лингвистами и проектировщиками машинного обучения, ориентированными на человека, и многими другими, существует множество интересных вакансий, которые вы можете выполнять в зависимости от ваших навыков и опыта.

Какую зарплату получает инженер по машинному обучению в год?

В Индии средняя зарплата младшего инженера по машинному обучению может варьироваться от 6 до 8,2 лакха в год. Но для профессионалов со средним опытом работы компенсация может варьироваться в среднем от 13 до 15 лакхов индийских рупий или даже больше. Теперь средний годовой доход инженеров по машинному обучению будет зависеть от множества факторов, таких как соответствующий опыт работы, набор навыков, общий опыт работы, сертификаты и даже местоположение. Старшие специалисты по машинному обучению могут зарабатывать около 1 крор индийских рупий в год.

Каков необходимый набор навыков для машинного обучения?

Базовое понимание и некоторый уровень комфорта в конкретных предметах полезны, если вы стремитесь построить успешную карьеру в области машинного обучения. Во-первых, вам нужно иметь представление о вероятности и статистике. Создание моделей машинного обучения и прогнозирование результатов требует знания статистики и вероятности. Затем вы должны быть знакомы с такими языками программирования, как Python и R, которые широко используются в машинном обучении. Для изучения машинного обучения также необходимы некоторые знания в области моделирования данных для анализа данных и сильные навыки проектирования программного обеспечения.