Перекрестная проверка в машинном обучении: 4 типа перекрестной проверки
Опубликовано: 2020-11-30Оглавление
Введение
Разработка модели — это важный шаг в жизненном цикле проекта по науке о данных, когда мы попытаемся обучить наш набор данных с помощью различных типов моделей машинного обучения с контролируемыми или неконтролируемыми алгоритмами на основе бизнес-проблемы.
Поскольку мы знаем, что у нас есть много моделей, которые можно использовать для решения бизнес-проблем, мы должны убедиться, что любая модель, которую мы выберем в конце этого этапа, должна хорошо работать с невидимыми данными. Таким образом, мы не можем просто использовать метрики оценки, чтобы выбрать нашу наиболее эффективную модель.
Нам нужно что-то еще помимо метрики, которая может помочь нам выбрать нашу окончательную модель машинного обучения, которую мы можем развернуть в производстве.
Процесс определения того, являются ли математические результаты расчета взаимосвязей между переменными приемлемыми в качестве описания данных, называется валидацией . Обычно оценка ошибки для модели выполняется после обучения модели на наборе данных поезда, более известного как оценка остатков.
В этом процессе мы измеряем ошибку обучения , вычисляя разницу между прогнозируемым ответом и исходным ответом. Но этой метрике нельзя доверять, потому что она хорошо работает только с обучающими данными. Возможно, модель недообучает или переоснащает данные.
Таким образом, проблема с этим методом оценки или любой другой оценочной метрикой заключается в том, что она не дает представления о том, насколько хорошо модель будет работать с невидимым набором данных. Техника, которая помогает узнать это о нашей модели, называется перекрестной проверкой .

В этой статье мы узнаем больше о различных типах методов перекрестной проверки, плюсах и минусах каждого метода. Начнем с определения перекрестной проверки.
Перекрестная проверка
Перекрестная проверка — это метод повторной выборки, который помогает нашей модели быть уверенной в ее эффективности и точности на невидимых данных. Это метод оценки моделей машинного обучения путем обучения нескольких других моделей машинного обучения на подмножествах доступного набора входных данных и их оценки на подмножестве набора данных.
У нас есть разные типы методов перекрестной проверки, но давайте рассмотрим основные функции перекрестной проверки: первый шаг — разделить очищенный набор данных на K разделов одинакового размера.
- Затем нам нужно рассматривать Fold-1 как тестовый фолд, а другой K-1 как поезд фолд и вычислить оценку тестового фолда.
- Нам нужно повторить шаг 2 для всех складок, взяв еще одну складку в качестве теста, оставаясь при этом поездом.
- Последним шагом будет получение среднего балла всех складок.
Читайте: Проекты машинного обучения для начинающих
Типы перекрестной проверки
1. Метод удержания
Этот метод работает на удалении части обучающего набора данных и отправке его в модель, которая была обучена на остальной части набора данных, чтобы получить прогнозы. Затем мы вычисляем оценку ошибки, которая показывает, как работает наша модель с невидимыми наборами данных. Это известно как метод удержания.
Плюсы
- Этот метод полностью независим от данных.
- Этот метод необходимо запустить только один раз, поэтому он требует меньших вычислительных затрат.
Минусы
- Производительность подвержена более высокой дисперсии, учитывая меньший размер данных.
2. K-кратная перекрестная проверка
В мире, управляемом данными, никогда не бывает достаточно данных для обучения вашей модели, кроме того, удаление части ее для проверки создает большую проблему недообучения, и мы рискуем потерять важные закономерности и тенденции в нашем наборе данных, что, в свою очередь, увеличивает смещение. Поэтому в идеале нам нужен метод, который предоставляет достаточное количество данных для обучения модели и оставляет достаточное количество данных для проверочных наборов.

В перекрестной проверке K-Fold данные делятся на k подмножеств, или мы можем использовать их как метод удержания, повторяемый k раз, так что каждый раз один из k подмножеств используется в качестве набора проверки, а другой k-1 подмножества в качестве обучающего множества. Ошибка усредняется по всем k испытаниям, чтобы получить общую эффективность нашей модели.
Мы видим, что каждая точка данных будет в проверочном наборе ровно один раз и будет в обучающем наборе k-1 раз. Это помогает нам уменьшить систематическую ошибку, поскольку мы используем большую часть данных для подбора, и уменьшает дисперсию, поскольку большая часть данных также используется в проверочном наборе.
Плюсы
- Это поможет преодолеть проблему вычислительной мощности.
- Модели могут не сильно пострадать, если в данных присутствует выброс.
- Это помогает нам преодолеть проблему изменчивости.
Минусы
- Несбалансированные наборы данных повлияют на нашу модель.
3. Стратифицированная K-кратная перекрестная проверка
Метод перекрестной проверки K-кратности не будет работать должным образом для несбалансированного набора данных. Когда у нас есть несбалансированный набор данных, нам нужно небольшое изменение в методе перекрестной проверки K-кратности, чтобы каждая кратность содержала примерно те же слои выборок каждого выходного класса, что и полная. Этот вариант использования страты в перекрестной проверке K-кратности известен как стратифицированная перекрестная проверка K-кратности.
Плюсы
- Он может улучшать различные модели с помощью настройки гиперпараметров.
- Помогает нам сравнивать модели.
- Это помогает уменьшить как предвзятость, так и дисперсию.
4. Перекрестная проверка без исключения
В этом подходе мы оставляем p точек данных вне обучающих данных из общего числа n точек данных, затем np выборок используются для обучения модели, а p точек используются в качестве проверочного набора. Это повторяется для всех комбинаций, а затем ошибка усредняется.

Плюсы
- Он имеет нулевую случайность
- Смещение будет ниже
Минусы
- Этот метод является исчерпывающим и вычислительно неосуществимым.
Читайте также: Карьера в машинном обучении
Заключение
В этой статье мы узнали о важности проверки модели машинного обучения в жизненном цикле проекта по науке о данных, узнали, что такое проверка и перекрестная проверка, изучили различные типы методов перекрестной проверки, познакомились с некоторыми преимущества и недостатки этих методов.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Для чего нужна перекрестная проверка в машинном обучении?
Перекрестная проверка — это метод машинного обучения, при котором обучающие данные делятся на две части: обучающий набор и тестовый набор. Учебный набор используется для построения модели, а тестовый набор используется для оценки того, насколько хорошо модель работает в рабочей среде. Причина этого заключается в том, что существует риск того, что построенная вами модель не будет работать в реальном мире. Если вы не выполняете перекрестную проверку своей модели, существует риск того, что вы построили модель, которая отлично работает на обучающих данных, но плохо работает на реальных данных.
Что такое k-кратная перекрестная проверка?
В машинном обучении и интеллектуальном анализе данных k-кратная перекрестная проверка, иногда называемая перекрестной проверкой с исключением одного, представляет собой форму перекрестной проверки, в которой обучающие данные делятся на k примерно равных подмножеств, где каждый из k- 1 подмножество по очереди использовалось в качестве тестовых данных, а оставшееся подмножество использовалось в качестве обучающих данных. K часто равно 10 или 5. K-кратная перекрестная проверка особенно полезна при выборе модели, поскольку она уменьшает дисперсию оценок ошибки обобщения.
Каковы преимущества перекрестной проверки?
Перекрестная проверка — это форма проверки, при которой набор данных делится на обучающий набор и тестовый набор (или набор перекрестной проверки). Затем этот набор используется для проверки точности вашей модели. Другими словами, он дает вам методологию измерения качества вашей модели на основе выборки ваших данных. Например, он используется для оценки ошибки модели, вызванной несоответствием между входными данными для обучения и входными данными для тестирования.