Мультиколлинеарность в регрессионном анализе: все, что вам нужно знать

Опубликовано: 2020-12-23

Оглавление

Введение

Регрессия пытается определить характер и силу связи между одной зависимой переменной и рядом других независимых переменных. Это помогает оценить силу взаимосвязи между различными переменными и построить модель будущих взаимосвязей между ними. «Мультиколлинеарность» в регрессии относится к предикторам, которые коррелируют с другими предикторами.

Что такое мультиколлинеарность?

Всякий раз, когда корреляции между двумя или более переменными-предикторами высоки, возникает мультиколлинеарность в регрессии. Проще говоря, переменная-предиктор, также называемая мультиколлинеарным предиктором, может использоваться для предсказания другой переменной. Это приводит к созданию избыточной информации, которая искажает результаты регрессионной модели.

Примерами мультиколлинеарных предикторов могут быть цена продажи и возраст автомобиля, вес, рост человека или годовой доход и количество лет обучения.

Вычисление коэффициентов корреляции — самый простой способ обнаружить мультиколлинеарность для всех пар значений предикторов. Если r, этот коэффициент корреляции точно +1 или -1, это называется идеальной мультиколлинеарностью. Если коэффициент корреляции точно или близко к +1 или -1, то одну из переменных необходимо исключить из модели только в том случае, когда это возможно.

Это редко случается с экспериментальными данными, но очень часто мультиколлинеарность поднимает свою уродливую голову, когда дело доходит до обсервационных исследований. Это может привести к ненадежной и нестабильной оценке регрессии при наличии условия. С помощью анализа результата можно решить несколько других проблем, таких как:

  • Обычно t-статистика будет довольно маленькой, а доверительные интервалы коэффициента будут широкими. Это означает, что становится трудно отвергнуть нулевую гипотезу.
  • Возможно изменение величины и/или знака коэффициентов частичной регрессии по мере их передачи от выборки к выборке.
  • Стандартные ошибки могут быть большими, а оценка коэффициента частичной регрессии может быть неточной.
  • Трудно оценить влияние независимых переменных на зависимые переменные из-за мультиколлинеарности.

Читайте: Типы регрессионных моделей в машинном обучении

Почему мультиколлинеарность является проблемой?

Изменение одной переменной может вызвать изменение остальных переменных, что происходит, когда независимые переменные сильно коррелированы. Таким образом, модель приводит к значительно колеблющемуся результату. Поскольку результаты модели будут нестабильными и сильно различающимися, даже если в данных произойдет даже небольшое изменение, это создаст следующие проблемы:

  • Оценка коэффициента была бы нестабильной, и модель было бы трудно интерпретировать. То есть вы не можете предсказать масштаб различий на выходе, если хотя бы один из ваших факторов предсказания изменится на 1 единицу.
  • Было бы сложно выбрать список значимых переменных для модели, если бы она каждый раз давала разные результаты.
  • Переоснащение может быть вызвано нестабильностью модели. Вы заметите, что точность значительно снизилась, если вы примените ту же модель к какой-либо другой выборке данных по сравнению с точностью, которую вы получили с вашим обучающим набором данных.

Учитывая ситуацию, для вашей модели может не возникнуть проблем, если возникнут только умеренные проблемы с коллинеарностью. Однако всегда предлагается решить проблему, если существует серьезная проблема с коллинеарностью.

В чем причина мультиколлинеарности?

Есть два типа:

  1. Структурная мультиколлинеарность в регрессии: это обычно вызывается исследователем или вами при создании новых переменных-предикторов.
  2. Мультиколлинеарность на основе данных в регрессии: обычно это вызвано плохо спланированными экспериментами, методами сбора данных, которыми нельзя манипулировать, или чисто наблюдательными данными. В некоторых случаях переменные могут быть сильно коррелированы из-за сбора данных из 100% обсервационных исследований, и нет ошибки со стороны исследователя. В связи с этим всегда рекомендуется проводить эксперименты, когда это возможно, заранее устанавливая уровень предикторной переменной.

Читайте также: Идеи и темы проекта линейной регрессии

Другие причины также могут включать

  1. Отсутствие данных. В некоторых случаях сбор достаточного количества данных может помочь в решении проблемы.
  2. Переменные, используемые в качестве фиктивных, могут быть использованы неправильно. Например, исследователь может не добавить фиктивную переменную для каждой категории или исключить одну категорию.
  3. Рассмотрение переменной в регрессии, которая представляет собой комбинацию других переменных в регрессии, например, рассмотрение «общего инвестиционного дохода», когда это доход от сбережения процентов + доход от облигаций и акций.
  4. Включая две почти или полностью идентичные переменные. Например, доход от облигаций/сбережений и доход от инвестиций, вес в килограммах и вес в фунтах.

Чтобы проверить, произошла ли мультиколлинеарность

Вы можете построить матрицу корреляции всех независимых переменных. В качестве альтернативы вы можете использовать VIF, то есть коэффициент инфляции дисперсии для каждой независимой переменной. Он измеряет мультиколлинеарность в наборе переменных множественной регрессии. Значение VIF пропорционально корреляции между этой переменной и остальными. Это означает, что чем выше значение VIF, тем выше корреляция.

Как решить проблему мультиколлинеарности?

  1. Выбор переменной. Самый простой способ — удалить несколько переменных, которые сильно коррелируют друг с другом, и оставить в наборе только самые важные из них.
  2. Преобразование переменной: Второй метод — это преобразование переменной, которое уменьшит корреляцию и при этом сохранит функцию.
  3. Анализ основных компонентов. Анализ основных компонентов обычно используется для уменьшения размерности данных путем разложения данных на ряд независимых факторов. Он имеет множество применений, например, расчет модели можно упростить, уменьшив количество факторов прогнозирования.

Связанное чтение: линейная регрессия в машинном обучении

Заключение

Перед построением регрессионной модели всегда следует проверять проблему мультиколлинеарности. Чтобы легко рассмотреть каждую независимую переменную, рекомендуется VIF, чтобы увидеть, имеют ли они значительную корреляцию с остальными. Матрица корреляции может помочь выбрать важные факторы, если вы не уверены, какие переменные следует выбрать. Это также помогает понять, почему некоторые переменные имеют высокое значение VIF.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Что означает термин порядковая регрессия в машинном обучении?

Порядковая регрессия — это тип регрессионного анализа, относящийся к семейству регрессионного анализа. Порядковая регрессия анализирует данные и объясняет взаимосвязь между одной зависимой переменной и двумя или более независимыми переменными в качестве прогностического исследования. Порядковая регрессия используется для прогнозирования зависимой переменной при наличии «упорядоченных» многочисленных категорий и независимых факторов. Иными словами, он позволяет зависимым переменным с разным упорядоченным уровнем более легко взаимодействовать с одной или несколькими независимыми переменными.

Влияет ли наличие мультиколлинеарности на деревья решений?

Если две характеристики тесно связаны в конкретной модели машинного обучения, дерево решений, тем не менее, выберет только одну из них при разделении. Если данные искажены или несбалансированы, одно дерево приводит к жадному подходу, но методы ансамблевого обучения, такие как случайные леса и деревья с повышением градиента, делают прогноз невосприимчивым к мультиколлинеарности. В результате случайные леса и деревья решений не подвержены влиянию мультиколлинеарности.

Чем логистическая регрессия отличается от линейной регрессии?

В некоторых аспектах линейная регрессия отличается от логистической регрессии. Логическая регрессия дает отдельные замечания и результаты, а линейная регрессия дает непрерывный и непрерывный результат. В линейной регрессии вычисляется среднеквадратическая ошибка, а в логистической регрессии вычисляется оценка максимального правдоподобия. Наконец, цель линейной регрессии состоит в том, чтобы определить наилучшую линию, соответствующую данным, но логистическая регрессия остается впереди, подгоняя данные к сигмовидной кривой.