Модель линейной регрессии: что это такое и как это работает?
Опубликовано: 2020-12-16Оглавление
Введение
Регрессионный анализ — важный инструмент для моделирования и анализа данных; важно найти взаимосвязь между двумя или более переменными. Регрессия помогает разместить точки данных на кривой, что помогает в моделировании и анализе данных. Регрессия позволяет измерять и характеризовать переменные в разных масштабах для оценки прогностических моделей и наборов данных.
Обязательно к прочтению: идеи проекта линейной регрессии
Модель регрессии
Модель включает значения коэффициента, которые используются при представлении данных. Он включает статистические свойства, которые используются для оценки этих коэффициентов; это объединение всех стандартных отклонений, ковариации и корреляций. Все данные должны быть доступны.
Модель регрессии представляет собой линейное условие, объединяющее определенный набор информационных значений (x), ответом на который является ожидаемый результат для этого набора информационных значений (y). И информационные значения (x), и выходные данные являются числовыми.
Линейное уравнение присваивает каждому информационному значению или сегменту один масштабный коэффициент, называемый коэффициентом и обозначаемый заглавной греческой буквой бета (B). Аналогичным образом добавляется один дополнительный коэффициент, дающий линии дополнительный уровень возможностей (например, переход на двухмерный график), и это часто называют коэффициентом захвата или наклона.
Например, в базовой регрессии (простой x и простой y) тип модели будет следующим:

у = В0 + В1*х
В более высоких измерениях, когда у нас есть более одной информации (x), линия называется плоскостью или гиперплоскостью. Изображение в этих строках представляет собой тип состояния и конкретные качества, используемые для коэффициентов (например, B0 и B1 в приведенной выше модели).
Нет ничего неожиданного в обсуждении многогранной природы модели срыва, такой как регрессия . Это указывает на количество коэффициентов, используемых в модели.
В момент, когда коэффициент становится равным нулю, он адекватно устраняет влияние информационной переменной на модель и впоследствии на прогноз, полученный с использованием модели (0 * x = 0). Это уместно, если вы посмотрите на методы регуляризации, которые изменяют расчет обучения, чтобы уменьшить многогранность моделей рецидива, сжимая высший размер коэффициентов, сводя некоторые к нулю.
Регрессию лучше всего представить прямой линией, где одна или несколько переменных используются для установления взаимосвязи.
Логика модели:
В качестве регрессионной модели используется уравнение y=mx+c
Где y= независимая переменная
м = уклон
c= перехват для данной строки
Для расчета нескольких независимых переменных будут реализованы модели множественной регрессии. Вот процесс создания идеально функционирующей модели
- Библиотеки импорта . Существуют важные параметры, связанные с реализацией моделей машинного обучения. Первая библиотека должна включать sklearn, так как это официальная библиотека машинного обучения в Python. Numpy используется для преобразования данных в массивы, а для доступа к файлам набора данных реализованы Pandas.
- Загрузите относительный набор данных. Это выполняется с помощью ранее импортированной переменной Panda.
- Разделить переменные. Укажите и определите количество независимых переменных или зависимых переменных, необходимых для элементов массива.
- Разделение данных тестирования и обучения . Весь набор данных разбит на области обучения и тестирования, чтобы разрешить и упростить случайные значения, взятые из набора данных.
- Выберите правильную модель . Соответствующий выбор потребует процесса проб и ошибок, когда тот же набор данных будет подразумеваться с другими моделями.
- Прогнозирование вывода . Модель будет работать с зависимой переменной, поддерживаемой тестовыми значениями независимой переменной, встроенные методы для этих моделей выполняют качественные математические расчеты для каждого представленного значения.
Это инициирует реализацию модели линейной регрессии. Функции линейного предиктора реализованы для моделирования отношений, как упоминалось ранее. Условное среднее значение ответа дает модели необходимые предикторы для перемещения условного среднего значения ответа.

Цель такого предсказания и прогнозирования состоит в том, чтобы учесть дополнительные переменные без добавления сопутствующего значения ответа; подогнанная модель будет реализована, чтобы сделать необходимый прогноз для этого ответа.
Модели линейной регрессии наиболее предпочтительно использовать с методом наименьших квадратов, когда для реализации могут потребоваться другие способы, например, минимизация отклонений и функций стоимости. Общие линейные модели включают переменную отклика, которая по своей природе является вектором, а не прямо скалярной величиной. Условная линейность по-прежнему считается положительной в процессе моделирования. Они различаются в больших масштабах, но их лучше описать как асимметричное распределение, которое связано с логарифмически-нормальным распределением.

Читайте: Типы регрессионных моделей в машинном обучении
Предупреждения
Учитывая, что две переменные связаны, это не исключает того, что одна из них вызывает другую.
Если попытка уравнения линейной регрессии для набора данных работает, это не обязательно означает, что уравнение идеально подходит, могут быть другие итерации с аналогичными перспективами. Чтобы убедиться в подлинности метода, попробуйте построить линию с точками данных, чтобы найти линейность уравнения.
Чтобы обобщить
Доказано, что метод линейной регрессии представляет собой гораздо лучший, мощный и статистический метод, позволяющий повысить шансы и найти предсказуемость событий и отношений между двумя или более переменными, представляющими интерес в данном вопросе.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Укажите некоторые проблемы, с которыми можно столкнуться при использовании модели линейной регрессии.
Линейная регрессия помогает предсказать взаимосвязь между средним значением зависимой переменной и независимыми факторами. Это становится проблематичным, потому что иногда единственный способ решить проблему — посмотреть на экстремальное значение зависимой переменной. С другой стороны, квантильная регрессия может быть использована для решения этой проблемы. Кроме того, линейная регрессия предполагает, что представленные данные независимы, что неверно в случае проблем с кластеризацией.
Что такое коэффициент линейной корреляции в регрессии?
Коэффициент корреляции — это всего лишь один из аспектов анализа взаимосвязи между переменными в простой линейной регрессии. Фактически, это один из самых мощных и широко используемых статистических методов анализа. Коэффициент корреляции продукта и момента Пирсона, который в основном представляет собой статистику, которая сообщает нам, насколько тесно связаны две переменные, является наиболее часто используемым коэффициентом корреляции. Коэффициент линейной корреляции оценивает силу линейной связи между двумя переменными. Совершенная линейная связь — это связь, в которой изменение одной переменной вызывает такое же единичное изменение другой переменной.
Чем полезен регрессионный анализ в любом бизнесе?
Регрессионный анализ помогает организации понять, что представляют ее точки данных, и применить к ним бизнес-аналитические подходы для принятия более эффективных решений. Этот сложный статистический инструмент используется бизнес-аналитиками и специалистами по данным для исключения ненужных переменных и выбора наиболее релевантных. Организации используют процесс принятия решений на основе данных, который устраняет методы старой школы, такие как предположения или предположения, и, как следствие, повышает производительность труда.