Узнайте, почему обобщенная линейная модель является замечательной моделью синтеза!

Опубликовано: 2020-11-17

Оглавление

Понимание основ

GLM очень известен среди людей, которые имеют дело с различными моделями регрессии, начиная с моделей классической линейной регрессии и заканчивая моделями анализа выживания. Термин « обобщенная линейная модель» (GLIM или GLM ) был придуман и введен Маккаллахом (1982) и Нелдером (2-е издание, 1989). GLM в простейшей форме, как описано в Rutherford 2001, Data = Model + Error. Он имеет полезную структуру, которая является основой различных статистических тестов.

Возвращаясь к классу моделей

  • Модели классической линейной регрессии (CLR), также называемые моделями линейной регрессии.
  • Модели дисперсионного анализа (ANOVA).
  • Модели, которые предсказывают шансы на победу, такие как вероятность отказа машины.
  • Модели, используемые для объяснения и прогнозирования количества событий
  • Модели для оценки продолжительности жизни живых и неживых объектов, таких как процессор или биологический возраст растения и т. д.

Обобщенная линейная модель , как следует из названия, является как бы навесом для всех вышеприведенных моделей с улучшенными расчетами и приближениями.

Структура обобщенных линейных моделей

Обобщенная линейная модель (или GLM1) состоит из трех основных компонентов:

  1. Случайная составляющая: Случайная составляющая, известная как модель шума или модель ошибки, представляет собой распределение вероятностей переменной отклика (Y).
  2. Систематический компонент: линейный предиктор — это линейная функция регрессоров, как указано ниже:

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

  1. Функция связи (обозначается η или g(μ) ): как следует из названия, это связь между систематическими и случайными компонентами .

Пример: µi = E(Yi), линейный предиктор g(µi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

Обобщенная линейная модель применяется к данным в процессе максимального правдоподобия. Это обеспечивает оценки коэффициентов регрессии и расчетные асимптотические стандартные ошибки коэффициентов.

Базовой GLM для данных подсчета является модель Пуассона со связью журнала. Однако, когда переменной отклика является счет, ее условная дисперсия увеличивается быстрее, чем ее среднее значение, что приводит к состоянию, называемому сверхдисперсией, и делает недействительным использование распределения Пуассона. Квазипуассоновская модель GLM добавляет параметр дисперсии для обработки слишком рассредоточенных данных подсчета.

В общих чертах, оценка квазиправдоподобия является одним из способов учета чрезмерной дисперсии, которая представляет собой более значительную изменчивость данных, чем ожидается от используемой статистической модели.

Аналогичная модель основана на отрицательном биномиальном распределении, которое не является экспоненциальным семейством. Отрицательные биномы в обобщенной линейной модели не могут быть определены по максимальному правдоподобию. Модель регрессии Пуассона с нулевым раздуванием может лучше всего подходить, когда в данных больше нулей, чем согласуется с распределением Пуассона.

Читать: Объяснение моделей машинного обучения

Преимущества обобщенной линейной модели по сравнению с традиционной регрессией с обыкновенными наименьшими квадратами (OLS)

У общих линейных моделей есть много преимуществ перед регрессией МНК, которые можно резюмировать следующим образом:

  • В отличие от регрессии МНК, не требуется каждый раз преобразовывать ответ Y, чтобы он имел нормальное распределение.
  • Моделирование является более гибким, поскольку выбор ссылки отличается от выбора случайного компонента.
  • Постоянная дисперсия НЕ нужна, если ссылка дает аддитивные эффекты.
  • У нас есть оптимальные свойства оценщиков, поскольку модели присоединены через оценку максимального правдоподобия.
  • Все инструменты вывода и проверки моделей для моделей логарифмической и логистической регрессии применимы и к другим GLM .
  • Обычно в программном пакете есть только один процесс (процедура или функция) для захвата всех моделей, перечисленных в таблице выше; возьмем, например, glm() (R Language) или PROC GENMOD (SAS).

Недостатки обобщенной линейной модели

Помимо вышеперечисленных преимуществ, есть два основных недостатка, о которых важно знать:

  • Некоторые ограничения, такие как линейная функция, могут иметь только линейный предиктор в систематическом компоненте.
  • Ответы не могут зависеть друг от друга.

Обязательно прочтите: Объяснение идей проекта машинного обучения

Заключение

Если обобщить всю вышеизложенную информацию, мы обнаружили, что GLM удобен при меньшей сложности. С GLM переменные отклика могут иметь любую форму экспоненциального типа распределения. Помимо этого, он может иметь дело с категориальными предикторами. Общая линейная модель легко интерпретируется и позволяет четко понять, как каждый предиктор влияет на результат.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Что такое модель регрессии Пуассона?

Чем общая линейная модель отличается от обобщенной линейной модели?

Какие предположения делает обобщенная линейная модель?

Большинство допущений GLM сопоставимы с моделями линейной регрессии, но некоторые допущения линейной регрессии изменены. Данные в GLM предполагаются независимыми и случайными. Ошибки также считаются независимыми, хотя они не должны регулярно распространяться. Хотя переменная отклика не обязана быть независимой, распределение должно принадлежать к экспоненциальному семейству.