Регрессия против классификации в машинном обучении: разница между регрессией и классификацией
Опубликовано: 2020-11-12Оглавление
Введение
При решении проблем науки о данных правильный подход имеет решающее значение и часто может означать разницу между путаницей и поиском правильного решения. Вначале специалисты по обработке и анализу данных часто склонны путать эти два понятия — не в состоянии разобраться в мелких технических деталях, которые важны для решения проблемы при правильном подходе.
Даже с опытными и опытными специалистами по данным различия могут легко сбить с толку, и это затрудняет применение правильного подхода. В этом дискурсе мы углубимся в различия и сходства двух важных алгоритмов науки о данных — классификации и регрессии.
Оба эти подхода должны быть важными инструментами в арсенале любого специалиста по данным при решении бизнес-задач. Следовательно, решающее значение для выбора правильных моделей, соответствующей тонкой настройки и развертывания правильного решения, которое поднимет ваш бизнес, жизненно важно.
Читайте: Идеи проекта машинного обучения
Регрессия против классификации
Во-первых, важное сходство — и регрессия, и классификация относятся к контролируемым методам машинного обучения. Что такое контролируемый подход к машинному обучению? Это набор алгоритмов машинного обучения, которые обучают модель, используя наборы данных из реального мира (называемые обучающими наборами данных), чтобы делать прогнозы.
Данные, которые используются для обучения модели, должны быть хорошо размечены и чисты; модель изучит данные обучения взаимосвязи между независимыми переменными и переменной-предиктором. Это контрастирует с подходом машинного обучения без учителя, который просит модель самостоятельно идентифицировать шаблоны в данных, таким образом находя функцию отображения, исследуя шаблоны, присущие набору данных.

Подход с контролируемым машинным обучением пытается решить функцию отображения, y = f (x), где x относится к входным переменным, а y — функция отображения. Решив функцию отображения, ее можно быстро и удобно перенести в набор данных реального мира.
Это могут делать как функции классификации, так и регрессионные функции, а также любой другой подход к контролируемому машинному обучению. Но существенная разница и регрессионные подходы заключаются в том, что в то время как в регрессии выходная переменная 'y' является числовой и непрерывной (может быть целым числом или значением с плавающей запятой) , в алгоритме классификации выходная переменная 'y' является дискретной и категоричный.
Итак, если вы прогнозируете такие переменные, как зарплата, ожидаемая продолжительность жизни, вероятность оттока, то эти переменные будут числовыми и непрерывными.
Например , предположим, что финансовое учреждение заинтересовано в составлении профилей своих соискателей кредита, чтобы оценить вероятность их дефолта. Исследователь данных может подойти к проблеме двумя основными способами: он может либо присвоить вероятность (которая будет представлять собой диапазон непрерывных чисел с плавающей запятой от 0 до 1) каждому заявителю на получение ссуды, либо просто дать набор двоичных выходных данных: соответствующий PASS/FAIL.
Оба подхода будут использовать один и тот же набор входных переменных, таких как кредитная история заявителя, информация о заработной плате, демографические данные, возраст, макроэкономические условия и т. д. Но разница между двумя подходами заключается в том, что первый оценивает каждого заявителя, что может быть полезно для делать релятивистские расчеты, например, насколько более вероятно, что один человек против другого.
Выходные данные также могут быть использованы для других анализов. Однако в последнем случае алгоритм классифицирует весь набор данных отдельных профилей как «Да» или «Нет», что затем можно использовать для оценки того, безопасно ли отдавать должное. Обратите внимание, что как да, так и нет классы могут иметь значительные различия внутри подкласса.

Но здесь, при классификационном подходе, нас не интересует выяснение вариаций внутри каждой подгруппы. Классификацию можно использовать и для других целей, например, для определения того, является ли входящая почта спамом или нет.
С другой стороны, прогнозирование погоды (погода может принимать ряд непрерывных значений) обычно требует регрессионного подхода. Если бы вместо этого нас интересовало только предсказание, будет ли дождь или нет, то тот же самый набор данных о погоде мог бы быть более подходящим для включения в систему классификации. Таким образом, как мы видим, вариант использования будет определять, какой алгоритм будет более подходящим для использования.
Алгоритмы регрессии включают, среди прочего, линейную регрессию, многомерную регрессию, модели опорных векторов и дерево регрессии. Подход к классификации использует среди прочего деревья решений, наивный байесовский подход, логистическую регрессию.
Понимая разницу между этими подходами и алгоритмами, вы сможете лучше выбирать и применять правильный подход к конкретным бизнес-вариантам, что поможет вам быстро найти правильное решение.
Типы алгоритмов классификации и регрессии
Давайте углубимся и разберем каждый из этих типов алгоритмов, которые используются в регрессии и классификации.
Линейная регрессия . В линейной регрессии взаимосвязь между двумя переменными оценивается путем построения прямой, наиболее подходящей линии. Будут и другие измерения, необходимые для оценки силы построенной линии наилучшего соответствия, такие как сила соответствия, дисперсия, стандартное отклонение, значение r-квадрата и другие. Узнайте больше о моделях регрессии в машинном обучении.
Полиномиальная регрессия . В моделях полиномиальной регрессии отношения измеряются между «несколькими» входными переменными и предиктором или «выходной» переменной. Подробнее о регрессионных моделях.
Алгоритм дерева решений. В алгоритме дерева решений набор данных классифицируется с помощью дерева решений, где каждый узел дерева представляет собой тестовый пример, а каждая ветвь, возникающая в каждом узле дерева, соответствует возможному значению. атрибута.
Читайте: Как создать идеальное дерево решений?

Алгоритм случайного леса. Случайный лес, как следует из названия, строится путем сложения нескольких алгоритмов дерева решений. Затем модель объединяет выходные данные различных деревьев решений и выдает окончательный прогноз, который осуществляется большинством голосов отдельных деревьев решений.
Окончательный результат, выдаваемый деревом решений, является более точным, чем любой из отдельных деревьев решений. «Случайные леса» часто имеют проблемы с переоснащением, но их можно настроить с помощью перекрестной проверки и других методов.
K ближайший сосед — K ближайший сосед — это надежный алгоритм классификации, который работает по принципу, что похожие вещи остаются в непосредственной близости друг от друга. Когда новая переменная помещается в алгоритм прогнозирования, он пытается назначить группу на основе ее близости к наборам данных. Узнайте больше о КНН.
Заключение
Как специалист по данным, вы должны иметь фундаментальное и существенное понимание различных подходов к классификации и регрессии. Используемые методы помогут вам как специалисту по данным применить правильный набор инструментов, чтобы найти подходящее решение, которое принесет пользу. Ваш бизнес.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.