Линейная регрессия в машинном обучении: все, что вам нужно знать
Опубликовано: 2020-04-28Различные технологии машинного обучения используются в различных сферах нашей повседневной жизни для поиска решений повседневных проблем, основанных на данных, анализе и опыте. Эти алгоритмы машинного обучения играют очень важную роль не только в идентификации текста, изображений и видео, но и способствуют улучшению медицинских решений, кибербезопасности, маркетинга, обслуживания клиентов и многих других аспектов или областей, касающихся нашей повседневной жизни.
В основном существует два типа алгоритмов машинного обучения, на которые делятся все алгоритмы. Это контролируемые и неконтролируемые алгоритмы машинного обучения. В этом блоге мы сосредоточимся только на алгоритмах машинного обучения с учителем и особенно на линейной регрессии. Начнем с понимания алгоритмов контролируемого машинного обучения.
Оглавление
Что такое контролируемые алгоритмы обучения?
Эти алгоритмы машинного обучения — это те, которые мы обучаем прогнозировать хорошо зарекомендовавший себя результат, который зависит от данных, вводимых пользователем. Алгоритм обучает модель предоставлять выходные данные для заданного набора данных. В начале система имеет доступ как к входным, так и к выходным данным. Задача системы состоит в том, чтобы определить правила, которые будут сопоставлять входные данные с выходными.
Обучение модели продолжается до тех пор, пока производительность не достигнет оптимального уровня. После обучения система может назначать выходные объекты, с которыми она не столкнулась во время обучения. В идеальном сценарии этот процесс достаточно точен и не занимает много времени. Существует два типа алгоритмов обучения с учителем , а именно: классификация и регрессия.
Мы кратко обсудим оба, прежде чем сразу перейти к нашей основной теме обсуждения.
1. Классификация
Это контролируемые алгоритмы машинного обучения, которые имеют простую цель — воспроизвести задания класса. Метод обучения часто рассматривается для ситуаций, в которых требуется разделение данных. Он разделяет данные на классы, прогнозируя ответы. Например, прогноз погоды на определенный день, определение определенного типа фотографий из альбома и отделение спама от электронной почты.

2. Регрессия
Метод обучения используется для воспроизведения выходных значений. Другими словами, он используется в ситуациях, когда нам нужно подогнать данные под определенное значение. Например, его часто используют для оценки стоимости различных товаров. Регрессию можно использовать для предсказания большего, чем вы можете себе представить.
Типы регрессий
Логистическая и линейная регрессии — два наиболее важных типа регрессии, которые существуют в современном мире машинного обучения и науки о данных. Впрочем, есть и другие, но они используются весьма экономно. Нельзя отрицать тот факт, что мы можем выполнять многочисленные регрессии с заданным набором данных или использовать их для разных ситуаций.
Каждая форма регрессии имеет свои плюсы и минусы и подходит для конкретных условий. Хотя мы сосредоточимся только на линейной агрессии, вам необходимо знать всю предысторию, чтобы ознакомиться с ее работой.
Именно поэтому мы ведем обсуждение шаг за шагом.
Что такое регрессионный анализ?
Регрессионный анализ — это не что иное, как методология прогнозного моделирования, целью которой является исследование связи, существующей между независимыми переменными или предикторами и зависимыми переменными или целями. Этот анализ используется во множестве различных вещей, включая моделирование временных рядов, прогнозирование и другие.
Например, если вы хотите изучить взаимосвязь между дорожно-транспортными происшествиями и случайным вождением, для этой работы нет лучшего метода, чем регрессионный анализ. Он играет очень важную роль как при анализе, так и при моделировании данных. Это делается путем подгонки линии или кривой к разным точкам данных таким образом, чтобы мы могли минимизировать разницу в расстояниях точек данных от линии или кривой.
Зачем нужен регрессионный анализ?
Регрессионный анализ используется для прогнозирования взаимосвязи между переменными, только если их две или более. Давайте разберемся, как это работает, на простом примере. Предположим, вам дали задание, которое требует от вас оценить рост продаж компании за определенный период с учетом существующих экономических условий.
Теперь данные компании говорят вам, что продажи выросли примерно в два раза по сравнению с ростом экономики. Мы можем использовать эти данные для оценки роста продаж компании в будущем, используя информацию из прошлого и текущую информацию.
Использование регрессионного анализа может дать вам ряд преимуществ при работе с данными или прогнозировании набора данных. Его можно использовать для указания на значимые отношения между независимыми и зависимыми переменными. Он используется для обозначения влияния опыта зависимой переменной от нескольких независимых переменных.
Он позволяет сравнивать влияние различных переменных, относящихся к разным шкалам измерения. Эти вещи имеют большое значение, помогая ученым, исследователям и аналитикам данных в построении прогностических моделей на основе наиболее подходящего набора переменных.
Читайте: Идеи и темы проекта машинного обучения
Что нужно иметь в виду, чтобы выбрать правильную модель регрессии?
Что ж, обычно все намного проще, когда у вас есть только две или три техники на выбор. Однако, если в нашем распоряжении так много вариантов, решение становится намного более сложным. Теперь вы не можете просто выбрать линейную регрессию, потому что результат непрерывен. Или используйте логистическую регрессию, если результат бинарный. При выборе регрессионной модели для нашей проблемы необходимо учитывать и другие факторы.
Как мы уже упоминали, существует больше доступных регрессионных моделей, чем мы можем понять. Так что же мы должны иметь в виду, делая выбор? Есть несколько важных вещей: размерность данных, тип зависимой и независимой переменной и другие свойства рассматриваемых данных. Вот несколько важных моментов, которые следует учитывать при выборе правильной регрессионной модели:
Исследование данных является ключом к построению прогностических моделей. Неудивительно, что это должно быть одним из первых, что вы должны сделать, прежде чем сделать выбор. Исследуйте данные для определения переменного воздействия и взаимосвязи.
Оценивайте различные модели регрессии для прогнозирования с помощью перекрестной проверки. Разделите набор данных на группы обучения и проверки. Среднеквадратическая разница между прогнозируемыми и наблюдаемыми значениями даст представление о точности прогноза.
Используйте Ridge, ElasticNet и другие методы регуляризации регрессии, чтобы выбрать правильную модель для наборов данных, содержащих переменные с высокой мультиколлинеарностью и размерностью.
Чтобы сравнить различные модели регрессии и их пригодность, мы можем проанализировать такие параметры, как AIC, BIC, R-квадрат, член ошибки и другие. Есть еще один критерий, который называется Cp Мэллоу. Он сравнивает модель с различными подмоделями, чтобы выявить предвзятость.
Никогда не используйте метод автоматического выбора модели, если набор данных, с которым вы работаете, содержит ряд загадочных переменных. Если вы сделаете это, вы перейдете к тому, чтобы сразу включить в модель эти переменные.
Ваша цель также важна для выбора правильной модели регрессии. Нужна ли вам мощная модель, простая или статистически значимая, зависит от вашей цели.
Что такое линейная регрессия?
Давайте узнаем больше о том, что такое линейная регрессия. Это один из методов машинного обучения, который подпадает под контролируемое обучение. Рост спроса и использования методов машинного обучения стоит за внезапным ростом использования линейной регрессии в нескольких областях. Знаете ли вы, что многослойные слои персептрона, как известно, выполняют линейную регрессию? Давайте теперь прольем свет на предположения, которые, как известно, делает линейная регрессия в отношении наборов данных, к которым она применяется.
1. Автокорреляция:
Это предположение, сделанное линейной регрессией, указывает на то, что автокорреляция в данных практически отсутствует. Автокорреляция имеет место, когда остаточные ошибки так или иначе зависят друг от друга.
2. Мультиколлинеарность:
Это предположение говорит о том, что мультиколлинеарность данных либо отсутствует вовсе, либо присутствует в незначительной степени. Мультиколлинеарность возникает, когда независимые функции или переменные демонстрируют некоторую зависимость.

3. Переменная связь:
В модели предполагается, что существует линейная связь между признаками и переменными отклика.
Несколько случаев, когда вы можете использовать линейную регрессию, включают оценку цены дома в зависимости от количества комнат в нем, определение того, насколько хорошо растение будет расти в зависимости от того, как часто его поливают, и так далее. Для всех этих случаев у вас уже будет представление о типе отношений, существующих между различными переменными.
Когда вы используете линейный регрессионный анализ, вы подкрепляете свою идею или гипотезу данными. Когда вы лучше поймете взаимосвязь между различными переменными, вы сможете лучше делать обоснованные прогнозы. Если вы еще не знаете, позвольте нам сказать вам, что линейная регрессия — это метод контролируемого машинного обучения, а также статистическая модель.
С точки зрения машинного обучения, модель регрессии — это ваша машина, и обучение связано с обучением этой модели на наборе данных, что помогает ей изучать взаимосвязь между переменными и позволяет делать прогнозы на основе данных.
Как работает линейная регрессия?
Прежде чем приступить к анализу, давайте предположим, что у нас есть два типа команд — те, которые хорошо выполняют свою работу, и те, которые плохо. Может быть несколько причин, почему команда не хороша в том, что она делает. Это может быть связано с тем, что у него нет нужного набора навыков или опыта, необходимого для выполнения определенных обязанностей на работе. Но никогда нельзя быть уверенным в том, что это такое.
Мы можем использовать линейную регрессию, чтобы найти кандидатов, у которых есть все, что требуется, чтобы они лучше всего подходили для конкретной команды, занимающейся определенным направлением работы. Это поможет нам в отборе кандидатов, которые, скорее всего, хорошо справляются со своей работой.
Целью регрессионного анализа является создание кривой или линии тренда, подходящей для рассматриваемых данных. Это помогает нам выяснить, как один параметр (независимые переменные) связан с другим параметром (зависимыми переменными).
Прежде всего, нам нужно сначала внимательно изучить все атрибуты разных кандидатов и выяснить, коррелируют ли они тем или иным образом. Если мы обнаружим некоторые корреляции, мы сможем начать делать прогнозы на основе этих атрибутов.
Исследование взаимосвязей в данных выполняется с использованием кривой или линии тренда и построения графика данных. Кривая или линия покажет нам, есть ли корреляция. Теперь мы можем использовать линейную регрессию, чтобы опровергнуть или принять отношения. Когда отношения подтвердятся, мы можем использовать алгоритм регрессии, чтобы узнать его отношения. Это позволит нам делать правильные прогнозы. Мы сможем более точно предсказать, подходит ли кандидат для этой работы или нет.
Важность обучения модели
Процесс, связанный с обучением модели линейной регрессии, во многом похож на то, как обучаются другие модели машинного обучения. Нам нужно работать с обучающим набором данных и моделировать взаимосвязь его переменных таким образом, чтобы это не влияло на способность модели предсказывать новые выборки данных. Модель обучается постоянно улучшать уравнение прогнозирования.
Это делается путем итеративного перебора заданного набора данных. Каждый раз, когда вы повторяете это действие, вы одновременно обновляете значение смещения и веса в направлении, указанном функцией градиента или стоимости. Стадия завершения обучения достигается, когда достигается порог ошибки или когда нет снижения затрат на последующие итерации обучения.
Прежде чем мы начнем обучать модель, нам нужно подготовить несколько вещей. Нам нужно установить количество требуемых итераций, а также скорость обучения. Помимо этого, мы также должны установить значения по умолчанию для наших весов. Кроме того, записывайте прогресс, которого мы можем достичь с каждым повторением.
Что такое регуляризация?
Если говорить о вариантах линейной регрессии, которые предпочтительнее других, то придется упомянуть те, в которых добавлена регуляризация. Регуляризация включает штрафование тех весов в модели, которые имеют большие абсолютные значения, чем другие.
Регуляризация выполняется, чтобы ограничить переоснащение, что часто делает модель, поскольку она слишком близко воспроизводит отношения обучающих данных. Это не позволяет модели обобщать невиданные ранее образцы, как это предполагается.
Когда мы используем линейную регрессию?
Сила линейной регрессии заключается в том, насколько она проста. Это означает, что с его помощью можно найти ответы практически на любой вопрос. Прежде чем использовать алгоритм линейной регрессии, вы должны убедиться, что ваш набор данных соответствует необходимым условиям, на которых он работает.
Наиболее важным из этих условий является наличие линейной зависимости между переменными вашего набора данных. Это позволяет легко их наносить. Вы должны видеть, что разница, которая существует между прогнозируемыми значениями и достигнутым значением в реальном времени, постоянна. Прогнозируемые значения по-прежнему должны быть независимыми, а корреляция между предикторами должна быть слишком тесной для удобства.
Вы можете просто построить свои данные вдоль линии, а затем тщательно изучить ее структуру, чтобы увидеть, соответствует ли ваш набор данных желаемым условиям или нет.
Линейная регрессия использует
Простота, благодаря которой линейная агрессия упрощает интерпретацию на молекулярном уровне, является одним из ее самых больших преимуществ. Линейную регрессию можно применять ко всем тем наборам данных, в которых переменные имеют линейную зависимость.
Предприятия могут использовать алгоритм линейной регрессии для своих данных о продажах. Предположим, вы представляете компанию, которая планирует запустить новый продукт. Но вы не совсем уверены, по какой цене вам следует продавать этот продукт. Вы можете проверить, как ваши клиенты реагируют на ваш продукт, продавая его по нескольким хорошо продуманным ценам. Это позволит вам обобщить взаимосвязь между продажами вашего продукта и ценой. С помощью линейной регрессии вы сможете определить цену, которую клиенты с большей вероятностью примут.

Читайте также: Заработная плата машинного обучения в Индии
Линейную регрессию также можно использовать на разных этапах поиска и производства продукта. Эти модели широко используются в академической, научной и медицинской областях. Например, фермеры могут смоделировать систему, которая позволит им использовать условия окружающей среды в своих интересах. Это поможет им в работе со стихией таким образом, чтобы они наносили минимальный ущерб их урожаю и прибыли.
В дополнение к этому, он может быть использован в здравоохранении, археологии и труде среди других областей. как интерпретация на линейной модели
Заключение
Регрессионный анализ — это широко распространенный инструмент, использующий математику для сортировки переменных, которые могут оказывать прямое или косвенное влияние на окончательные данные. Важно помнить об этом во время анализа! Линейная регрессия — один из наиболее распространенных алгоритмов, используемых специалистами по данным для установления линейных отношений между переменными набора данных, и его математическая модель необходима для прогнозного анализа.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Есть ли у линейной регрессии ограничения или недостатки?
Линейная регрессия — это популярный метод, используемый для понимания взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Несмотря на то, что модель линейной регрессии широко используется для разработки моделей машинного обучения, она имеет определенные ограничения. Например, этот алгоритм регрессии предполагает, что все отношения между переменными являются линейными, что часто может вводить в заблуждение. Затем он всегда учитывает среднее значение зависимой переменной при изучении ее связи с независимыми переменными. Далее, линейная регрессия всегда предполагает, что данные являются взаимоисключающими, т. е. независимыми от значений других, которые могут быть неверными. Кроме того, линейная регрессия обычно чувствительна к выбросам или неожиданным данным.
В чем причины популярности регрессионного анализа?
Регрессионный анализ — один из самых полезных и мощных статистических методов, используемых в машинном обучении. Существуют различные причины, объясняющие его популярность. Во-первых, регрессионный анализ имеет широкий спектр применений благодаря своей огромной универсальности. Модель регрессионного анализа очень проста в реализации и интерпретации, т. е. вы можете легко объяснить, как она работает, и интерпретировать результаты. Понимание регрессионного анализа обеспечивает надежный контроль над статистическими моделями машинного обучения. Он также помогает разрабатывать более эффективные модели машинного обучения с использованием таких языков программирования, как R и Python. Кроме того, этот метод предлагает отличную интегрируемость с искусственными нейронными сетями для создания полезных прогнозов.
Как компании могут использовать линейную регрессию в своих интересах?
Предприятия могут использовать линейную регрессию для изучения и получения полезных данных о поведении потребителей, которое влияет на прибыльность. Это также может помочь компаниям делать оценки и оценивать рыночные тенденции. Маркетологи могут использовать линейную регрессию для оценки эффективности своих маркетинговых стратегий, включающих рекламные акции и ценообразование продуктов. Финансовые и страховые компании могут эффективно оценивать риски и формулировать важные бизнес-решения. Компании-эмитенты кредитных карт могут стремиться минимизировать свой портфель рисков с неплательщиками, используя модели линейной регрессии.