Что такое переоснащение и недообучение в машинном обучении? [Все, что вам нужно знать]
Опубликовано: 2020-02-18Машинное обучение — не самый простой предмет для освоения. Overfitting и Underfitting — это лишь некоторые из многих терминов, которые распространены в сообществе машинного обучения. Понимание этих концепций заложит основу для вашего будущего обучения.
Мы узнаем об этих концепциях глубоко в этой статье. Мы также обсудим основную идею этих ошибок, почему они возникают и как их можно исправить. Вы также узнаете немного о моделях данных и их связи с этими ошибками.
Итак, не ходите вокруг да около, давайте погрузимся прямо в:
Оглавление
Что такое модель данных?
Прежде чем мы начнем обсуждать, что такое Overfitting и Underfitting, давайте сначала разберемся, что такое модель. Модель данных — это система для предсказания входных данных. Можно сказать, что модель — это теория решения проблемы. Например, если вы хотите спрогнозировать рост нескольких компаний, вы можете взять их прибыль в качестве исходных данных и получить результаты на основе взаимосвязи между их прибылью и ростом. Результатом для этого примера будет прогнозируемый рост компаний.
Таким образом, входные данные — это текущая прибыль компаний, тогда как их прогнозы роста — это выходные данные. Отношения между этими двумя являются моделью. Модели необходимы для получения результатов.
Модель понимает взаимосвязь между входными и выходными данными через набор обучающих данных. Мы называем входные характеристики и выходные данные метками. Таким образом, вы также можете увидеть эти имена в статье. Во время обучения модели вы даете ей функции, а также метки, и позволяете ей выяснить взаимосвязь между ними. После завершения обучения вы можете опробовать модель, предоставив ей только набор функций, правильные прогнозы которых вам доступны.

После того, как он сгенерирует свои прогнозы, вы сравните их с правильными прогнозами, которые у вас есть, и посмотрите, насколько точной была модель. Модели бывают разных форм.
Обучение и тестирование данных
Вы можете дать своей модели данных идеальные функции, когда вы новичок, но это не то, что происходит в реальном мире. Данные в реальном мире наполнены шумом и бесполезной информацией. Независимо от источника ваших данных, вы обнаружите в нем некоторые переменные, которые не соответствуют тренду.
В нашем примере с прогнозами роста компаний вы знаете, что их рост не будет полностью зависеть от их прибыли. Тут будет много факторов. Во время обучения вашей модели вы должны добавить немного шума, чтобы сделать ее реалистичной. После того, как вы создали свои данные, вам нужно будет разделить их на два набора для обучения и тестирования.
Вы бы использовали обучающие данные, чтобы помочь модели изучить взаимосвязь между функциями и метками. И вы бы использовали данные тестирования, чтобы оценить его производительность.
В мире данных существует множество форм моделей. Выбор одного из них может быть немного сложным, но с небольшой практикой все становится проще. Стандартная модель представляет собой полиномиальную регрессию. Это форма линейной регрессии, при которой входные данные возводятся в различные степени. Это своего рода линейная регрессия, но она не образует прямой линии. Узнайте больше о реализации линейной регрессии.
Вы определяете многочлен по его порядку. Порядок многочлена — это наибольшая степень x в его уравнении. И порядок полинома также показывает его степень. Например, уравнение прямой линии имеет 1 степень.
Важность исправления переобучения и недообучения в машинном обучении
Переобучение и недообучение возникают, когда вы имеете дело с полиномиальной степенью вашей модели. Как мы упоминали ранее, степень многочлена зависит от наибольшей степени x в его уравнении. Это значение указывает, насколько гибка ваша модель. Если ваша модель имеет высокую степень, у нее будет гораздо больше свободы. С высокой степенью модель может охватывать множество объектов данных.
С другой стороны, модель с меньшим количеством степеней, чем требуется, не сможет охватить достаточное количество объектов данных. Обе эти ситуации могут привести к грязным результатам, которые бесполезны.
Прежней задачей более высокой степени, чем необходимо, была Overfitting. И второй проблемой меньше требуемой степени было недообучение. Как видите, они оба могут нанести ущерб вашей модели и повредить вашим результатам.

Если вы не устраните эти проблемы, ваша модель не даст вам точных результатов, и вы будете использовать бесполезные ярлыки.
Теперь, когда мы знаем их основную концепцию, давайте подробно обсудим каждый из них:
Что такое переоснащение?
Когда алгоритм машинного обучения начинает регистрировать шум в данных, мы называем это переоснащением. Проще говоря, когда алгоритм начинает слишком много внимания уделять мелким деталям. В машинном обучении результат состоит в том, чтобы предсказать вероятный результат, и из-за переобучения это может значительно снизить его точность. Мы знаем, что это звучит хорошо, но это не так.
Серьезным примером переобучения в машинном обучении может быть граф, на котором все точки соединяются линейно. Мы хотим уловить тренд, но график этого не делает.
Модель, которая не может делать хорошие прогнозы, но учится всему возможному из данных, бесполезна, поскольку приводит к неточным результатам.
Что делать, если вы заметили переобучение?
Мы можем решить эту проблему, просто уменьшив количество данных, используемых алгоритмом, и не перегружая систему. Высокая дисперсия (Переобучение) делает ситуацию хуже, чем лучше. Некоторые из традиционных методов, используемых для решения Overfitting, следующие:
Уменьшение итераций
Уменьшая количество повторений, которые выполняются до того, как произойдет переобучение, мы можем предотвратить его возникновение. Узнать точное количество итераций можно методом проб и ошибок.
Регуляризация
Он ограничивает оценки коэффициентов, которые близки к 0. Проще говоря, мы можем сказать, что он говорит алгоритму использовать более мягкую модель вместо жесткой. Узнайте больше о регуляризации и о том, как избежать переобучения.
Обрезка (стандартная)
Самый простой и распространенный способ избежать переобучения — это обрезка. Он избавляется от любых узлов, которые практически не добавляют предсказательной силы.
Пятикратная перекрестная проверка
Использование перекрестной проверки — один из менее сложных методов проверки переобучения.
Что такое недообучение?
Как следует из названия, недообучение — это когда модель недостаточно подходит для получения результатов. Модель данных с недостаточным соответствием не знает, как ориентироваться на достаточное количество объектов данных. При меньшей степени граф теряет большинство присутствующих функций.
Другими словами, модель «слишком проста», чтобы давать результаты, если она не соответствует требованиям. Однако решение этой задачи более удобно и не требует таких усилий, как переоснащение ранее.
Что делать, если вы заметили Underfitting?
Если ваша модель недостаточно приспособлена, вы должны дать ей больше возможностей. С большим количеством функций у него будет больше пространства для гипотез. Он может использовать это пространство для получения точных результатов. Обнаружение недообучения более удобно по сравнению с переоснащением, поэтому у вас не возникнет проблем с определением этой ошибки. Однако при работе с неподходящей моделью следует увеличивать только функции, а не все данные. Расширение данных приводит к большему количеству ошибок в этом случае.

Читайте: Интересные идеи проектов машинного обучения
Попади в сладкое место
В машинном обучении вы хотели бы, чтобы ваша модель данных оставалась между Underfitting и Overfitting. Он не должен охватывать ни слишком много точек данных, ни слишком мало. По мере дальнейшего обучения модели вы сможете улучшать ее и исправлять ошибки. Ошибки вашей модели начнут уменьшаться в количестве с обучающим набором и тестовым набором.
Отличный способ найти золотую середину между переоснащением и недообучением — прекратить обучение модели до того, как ее ошибки начнут увеличиваться. Это общее решение, которое вы можете использовать помимо методов, упомянутых ранее в этой статье.
Заключение
Каждый специалист по работе с данными сталкивается с проблемой переоснащения и недостаточности. Обучить модель данных непросто, и для ознакомления с ними требуется много практики. Однако с опытом вы начнете выявлять проблемы на ранней стадии и полностью избегать причин ошибок.
Очень важно знать такие ошибки, если вы хотите стать экспертом по машинному обучению. Если вы хотите узнать больше о машинном обучении и науке о данных, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий. , статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.