Предположения линейной регрессии: 5 предположений с примерами
Опубликовано: 2020-12-22Регрессия используется для измерения и количественной оценки причинно-следственных связей. Регрессионный анализ — это статистический метод, используемый для понимания величины и направления возможной причинно-следственной связи между наблюдаемой закономерностью и предполагаемыми переменными, влияющими на данную наблюдаемую закономерность.
Например, если цена продукта, скажем, увлажняющего крема, снизилась на 20%, люди, скорее всего, купят его, и продажи, скорее всего, увеличатся.
Здесь наблюдаемая закономерность представляет собой увеличение продаж (также называемое зависимой переменной). Предполагается, что переменной, влияющей на продажи, является цена (также называемая независимой переменной).
Оглавление
Что такое линейная регрессия?
Линейная регрессия — это статистический метод, который моделирует величину и направление воздействия на зависимую переменную, объясняемую независимыми переменными. Линейная регрессия обычно используется в прогнозном анализе.
Линейная регрессия объясняет два важных аспекта переменных, а именно:
- Объясняет ли набор независимых переменных существенно зависимую переменную?
- Какие переменные являются наиболее значимыми в объяснении имеющегося зависимого? Каким образом они влияют на зависимую переменную? Воздействие обычно определяется величиной и знаком бета-коэффициентов в уравнении.
Теперь давайте рассмотрим предположения линейной регрессии, которые необходимо понять, прежде чем мы запустим модель линейной регрессии.

Подробнее: Модель линейной регрессии и как она работает?
Предположения линейной регрессии
Линейная связь
Одно из наиболее важных предположений состоит в том, что между зависимой и независимой переменными существует линейная зависимость. Если вы попытаетесь установить линейную зависимость в нелинейном наборе данных, предлагаемый алгоритм не будет отображать тренд в виде линейного графика, что приведет к неэффективной модели. Таким образом, это приведет к неточным прогнозам.
Как определить, выполняется ли предположение?
Простой способ определить, выполняется ли это предположение или нет, — построить график рассеяния x vs y. Если точки данных попадают на прямую линию на графике, существует линейная связь между зависимой и независимой переменными, и предположение верно.
Что делать, если это предположение нарушается?
Если между зависимой и независимой переменными не существует линейной связи, примените нелинейное преобразование, такое как логарифмическое, экспоненциальное, преобразование квадратного корня или обратное преобразование либо к зависимой переменной, либо к независимой переменной, либо к обеим.
Нет автокорреляции или независимости
Остатки (погрешности) не зависят друг от друга. Другими словами, нет никакой корреляции между последовательными членами ошибки данных временного ряда. Наличие корреляции в членах ошибок резко снижает точность модели. Если члены ошибок коррелированы, оценочная стандартная ошибка пытается уменьшить истинную стандартную ошибку.
Как определить, выполняется ли предположение?
Проведите статистический тест Дарбина-Ватсона (DW). Значения должны находиться в диапазоне от 0 до 4. Если DW=2, автокорреляция отсутствует; если DW лежит между 0 и 2, это означает, что существует положительная корреляция. Если DW находится между 2 и 4, это означает, что существует отрицательная корреляция. Другой метод состоит в том, чтобы построить график зависимости остатков от времени и увидеть закономерности в остаточных значениях.
Что делать, если это предположение нарушается?
Если предположение нарушается, рассмотрите следующие варианты:
- Для положительной корреляции рассмотрите возможность добавления лагов к зависимой, независимой или обеим переменным.
- Для отрицательной корреляции проверьте, не является ли ни одна из переменных чрезмерной.
- Для сезонной корреляции рассмотрите возможность добавления в модель нескольких сезонных переменных.
Нет мультиколлинеарности
Независимые переменные не должны быть коррелированы. Если между независимыми переменными существует мультиколлинеарность, предсказать результат модели сложно. В сущности, трудно объяснить взаимосвязь между зависимой и независимой переменными. Другими словами, неясно, какие независимые переменные объясняют зависимую переменную.

Стандартные ошибки имеют тенденцию увеличиваться с коррелированными переменными, что расширяет доверительные интервалы, что приводит к неточным оценкам.
Как определить, выполняется ли предположение?
Используйте точечную диаграмму, чтобы визуализировать корреляцию между переменными. Другой способ — определить VIF (фактор инфляции дисперсии). VIF<=4 подразумевает отсутствие мультиколлинеарности, тогда как VIF>=10 подразумевает серьезную мультиколлинеарность.
Что делать, если это предположение нарушается?
Уменьшите корреляцию между переменными, либо преобразовав, либо объединив коррелированные переменные.
Обязательно прочтите: Типы регрессионных моделей в ML
гомоскедастичность
Гомоскедастичность означает, что остатки имеют постоянную дисперсию на каждом уровне x. Отсутствие этого явления известно как гетероскедастичность. Гетероскедастичность обычно возникает при наличии выбросов и экстремальных значений.
Как определить, выполняется ли предположение?
Создайте точечную диаграмму, которая показывает остаточное значение по сравнению с подогнанным значением. Если точки данных распределены одинаково без заметной закономерности, это означает, что остатки имеют постоянную дисперсию (гомоскедастичность). В противном случае, если наблюдается воронкообразный паттерн, это означает, что остатки распределены неравномерно, и отражает непостоянную дисперсию (гетероскедастичность).
Что делать, если это предположение нарушается?
- Преобразование зависимой переменной
- Переопределить зависимую переменную
- Используйте взвешенную регрессию
Нормальное распределение ошибок
Последнее предположение, которое необходимо проверить для линейной регрессии, — это нормальное распределение ошибок. Если члены ошибок не подчиняются нормальному распределению, доверительные интервалы могут стать слишком широкими или узкими.
Как определить, выполняется ли предположение?
Проверьте предположение, используя график QQ (Quantile-Quantile). Если точки данных на графике образуют прямую диагональную линию, предположение выполняется.

Вы также можете проверить нормальность членов ошибки, используя статистические тесты, такие как тест Колмогорова-Смиронова или тест Шапиро-Уилка.
Что делать, если это предположение нарушается?
- Проверьте, влияют ли выбросы на распределение. Убедитесь, что это реальные значения, а не ошибки ввода данных.
- Примените нелинейное преобразование в форме журнала, квадратного корня или обратного преобразования к зависимой, независимой или обеим переменным.
Заключение
Используйте истинную силу регрессии, применяя описанные выше методы, чтобы убедиться, что предположения не нарушаются. Действительно возможно понять влияние независимых переменных на зависимую переменную, если выполняются все допущения линейной регрессии.
Концепция линейной регрессии является неотъемлемым элементом программ обработки данных и машинного обучения.
Если вам интересно узнать больше о регрессионных моделях и о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований. и задания, статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Почему гомоскедастичность требуется в линейной регрессии?
Гомоскедастичность описывает, насколько похожи данные или насколько далеко они отклоняются от среднего. Это важное допущение, потому что параметрические статистические тесты чувствительны к различиям. Гетероскедастичность не вызывает смещения в оценках коэффициентов, но снижает их точность. При более низкой точности оценки коэффициентов, скорее всего, будут отличаться от правильного значения генеральной совокупности. Чтобы избежать этого, необходимо утверждать гомоскедастичность.
Каковы два типа мультиколлинеарности в линейной регрессии?
Данные и структурная мультиколлинеарность являются двумя основными типами мультиколлинеарности. Когда мы делаем модельный термин из других терминов, мы получаем структурную мультиколлинеарность. Другими словами, это не то, что присутствует в самих данных, это результат модели, которую мы предоставляем. Хотя мультиколлинеарность данных не является артефактом нашей модели, она присутствует в самих данных. Мультиколлинеарность данных чаще встречается в наблюдательных исследованиях.
Каковы недостатки использования t-критерия для независимых тестов?
Существуют проблемы с повторяющимися измерениями вместо различий между группами при использовании парных выборочных t-тестов, что приводит к эффектам переноса. Из-за ошибок первого рода t-критерий нельзя использовать для множественных сравнений. Будет сложно отвергнуть нулевую гипотезу при выполнении парного t-теста на наборе выборок. Получение испытуемых для выборочных данных является трудоемким и дорогостоящим аспектом исследовательского процесса.
