일반화 선형 모델이 주목할만한 합성 모델인 이유를 아십시오!

게시 됨: 2020-11-17

목차

기본 이해

GLM 은 Classical Linear Regression Model부터 Models for Survival Analysis까지 다양한 회귀 모델을 다루는 개인들 사이에서 매우 유명합니다. 일반화된 선형 모델 (GLIM 또는 GLM)이라는 용어 는 McCullagh(1982)와 Nelder(2nd edition 1989)에 의해 만들어지고 친숙해졌습니다. GLM , Rutherford 2001, Data = Model + Error에 설명된 가장 단순한 형태입니다. 다양한 통계 테스트의 기초가 되는 유용한 프레임워크를 가지고 있습니다.

모델 클래스 재방문

  • 선형 회귀 모델이라고도 하는 클래식 선형 회귀(CLR) 모델
  • 분산 분석(ANOVA) 모델.
  • 기계 고장 확률처럼 당첨 확률을 예측하는 모델
  • 이벤트 수를 설명하고 예측하는 데 사용되는 모델
  • 프로세서나 식물의 생물학적 나이 등 생물과 무생물의 수명을 추정하기 위한 모델

일반화 선형 모델(Generalized Linear Model ) 은 이름에서 알 수 있듯이 위에 제공된 모든 모델에 대해 향상된 계산 및 근사값을 제공하는 캐노피와 같습니다.

일반화 선형 모델의 구조

일반화 선형 모델 (또는 GLM1)은 세 가지 주요 구성 요소로 구성됩니다 .

  1. 랜덤 컴포넌트: 노이즈 모델 또는 오류 모델로 알려진 랜덤 컴포넌트는 응답 변수(Y)의 확률 분포입니다.
  2. 계통 구성 요소: 선형 예측 변수는 아래와 같이 회귀 변수의 선형 함수입니다.

ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

  1. 연결 함수( η 또는 g(μ) 로 표시 ): 이름에서 알 수 있듯이 시스템 구성 요소와 무작위 구성 요소 간의 연결

예: μi = E(Yi), 선형 예측 변수 g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik

일반화 선형 모델 은 최대 가능성 프로세스에 의해 데이터에 적용됩니다. 이것은 회귀 계수의 추정값과 계수의 추정된 점근 표준 오차를 제공합니다.

계수 데이터에 대한 기본 GLM은 로그 링크가 있는 푸아송 모델입니다. 그러나 응답 변수가 개수인 경우 조건부 분산이 평균보다 더 빠르게 증가하여 과대산포라는 조건이 생성되고 포아송 분포의 사용이 무효화됩니다. 유사 포아송 GLM 은 과분산된 카운트 데이터를 처리하기 위해 분산 매개변수를 추가합니다.

일반적으로 준우도 추정은 과대산포를 허용하는 한 가지 방법이며, 이는 사용된 통계 모델에서 예상한 것보다 데이터에서 더 큰 변동성을 나타냅니다.

유사한 모델은 지수 패밀리가 아닌 음의 이항 분포를 기반으로 합니다. 일반화 선형 모델 의 음이항식은 최대 가능성으로 결정할 수 없습니다. 제로 팽창 푸아송 회귀 모델은 데이터에 푸아송 분포와 일치하는 것보다 더 많은 0이 있을 때 가장 적합할 수 있습니다.

읽기: 기계 학습 모델 설명

기존의 OLS(Ordinary Least Square) 회귀에 대한 일반화 선형 모델의 장점

일반 선형 모델에는 OLS 회귀에 비해 많은 장점이 있으며 다음과 같이 요약할 수 있습니다.

  • OLS 회귀와 달리 응답 Y는 정규 분포를 갖기 위해 매번 변환할 필요가 없습니다.
  • 링크를 선택하는 것은 임의의 구성 요소를 선택하는 것과 다르기 때문에 모델링이 더 유연합니다.
  • 링크가 추가 효과를 제공하는 경우 일정한 분산이 필요하지 않습니다.
  • 최대 가능성 추정을 통해 모델이 첨부되므로 추정기의 최적 속성이 있습니다.
  • 로그 선형 및 로지스틱 회귀 모델에 대한 모든 추론 도구와 모델 검사는 다른 GLM 에도 적용됩니다.
  • 일반적으로 위의 표에 나열된 모든 모델을 캡처하는 소프트웨어 패키지에는 하나의 프로세스(절차 또는 기능)만 있습니다. 예를 들어, glm()(R 언어) 또는 PROC GENMOD(SAS)를 사용하십시오.

일반화 선형 모델의 단점

위에 나열된 장점 외에도 알아야 할 중요한 두 가지 주요 단점이 있습니다.

  • 선형 함수와 같은 일부 제한은 계통 구성 요소에 선형 예측 변수만 가질 수 있습니다.
  • 응답은 서로 의존할 수 없습니다.

필독: 기계 학습 프로젝트 아이디어 설명

결론

위의 모든 정보를 요약하면 GLM 이 복잡도가 낮고 편리하다는 것을 알 수 있습니다. GLM을 사용하면 응답 변수는 모든 형태의 지수 분포 유형을 가질 수 있습니다. 이 외에도 범주형 예측 변수를 처리할 수 있습니다. 일반 선형 모델은 해석하기 쉽고 각 예측 변수가 결과에 어떻게 영향을 미치는지 명확하게 이해할 수 있는 관련성입니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

푸아송 회귀 모델이란 무엇입니까?

일반 선형 모델은 일반 선형 모델과 어떻게 다릅니까?

일반화 선형 모델이 만드는 가정은 무엇입니까?

대부분의 GLM 가정은 선형 회귀 모델과 유사하지만 일부 선형 회귀 가정은 변경되었습니다. GLM의 데이터는 독립적이고 임의적이라고 가정합니다. 오류는 정기적으로 배포될 필요는 없지만 독립적인 것으로 간주됩니다. 반응 변수가 독립적일 필요는 없지만 분포는 지수 패밀리에 속해야 합니다.