선형 회귀 가정: 5가지 가정 예
게시 됨: 2020-12-22회귀는 인과 관계를 측정하고 수량화하는 데 사용됩니다. 회귀 분석은 관찰된 패턴과 주어진 관찰된 패턴에 영향을 미치는 가정된 변수 간의 가능한 인과 관계의 크기와 방향을 이해하는 데 사용되는 통계적 기법입니다.
예를 들어 모이스처라이저와 같은 제품의 가격이 20% 할인되면 사람들이 구매할 가능성이 높아지고 매출이 증가할 수 있습니다.
여기서 관찰된 패턴은 매출 증가(종속 변수라고도 함)입니다. 판매에 영향을 미치는 것으로 가정하는 변수는 가격(독립변수라고도 함)입니다.
목차
선형 회귀란 무엇입니까?
선형 회귀는 독립 변수에 의해 설명되는 종속 변수에 대한 영향의 크기와 방향을 모델링하는 통계 기법입니다. 선형 회귀는 일반적으로 예측 분석에 사용됩니다.
선형 회귀는 다음과 같은 변수의 두 가지 중요한 측면을 설명합니다.
- 독립변수 집합이 종속변수를 유의미하게 설명합니까?
- 사용 가능한 종속 항목을 설명하는 데 가장 중요한 변수는 무엇입니까? 그들은 어떤 방식으로 종속 변수에 영향을 줍니까? 영향은 일반적으로 방정식에서 베타 계수의 크기와 부호에 의해 결정됩니다.
이제 선형 회귀 모델을 실행하기 전에 이해해야 하는 선형 회귀의 가정을 살펴보겠습니다.

더 읽어보기: 선형 회귀 모델 및 작동 원리
선형 회귀의 가정
선형 관계
가장 중요한 가정 중 하나는 종속 변수와 독립 변수 사이에 선형 관계가 존재한다고 합니다. 비선형 데이터 세트에서 선형 관계를 맞추려고 하면 제안된 알고리즘이 추세를 선형 그래프로 캡처하지 않아 모델이 비효율적입니다. 따라서 부정확한 예측이 됩니다.
가정이 충족되었는지 어떻게 확인할 수 있습니까?
이 가정이 충족되는지 여부를 결정하는 간단한 방법은 산점도 x 대 y를 만드는 것입니다. 데이터 포인트가 그래프에서 직선 위에 있으면 종속 변수와 독립 변수 사이에 선형 관계가 있으며 가정이 유지됩니다.
이 가정을 위반하면 어떻게 해야 합니까?
종속 변수와 독립 변수 사이에 선형 관계가 없는 경우 종속 변수, 독립 변수 또는 둘 다에 대수, 지수, 제곱근 또는 역수와 같은 비선형 변환을 적용합니다.
자기 상관 또는 독립 없음
잔차(오차 항)는 서로 독립적입니다. 즉, 시계열 데이터의 연속적인 오차항 사이에는 상관관계가 없습니다. 오차 항에 상관 관계가 있으면 모델의 정확도가 크게 감소합니다. 오차 항이 상관되어 있으면 추정된 표준 오차는 실제 표준 오차를 축소하려고 시도합니다.
가정이 충족되었는지 확인하는 방법은 무엇입니까?
Durbin-Watson(DW) 통계 테스트를 수행합니다. 값은 0-4 사이여야 합니다. DW=2이면 자동 상관 없음; DW가 0과 2 사이에 있으면 양의 상관관계가 있음을 의미합니다. DW가 2와 4 사이에 있으면 음의 상관관계가 있음을 의미합니다. 또 다른 방법은 잔차 대 시간에 대한 그래프를 표시하고 잔차 값의 패턴을 확인하는 것입니다.
이 가정을 위반하면 어떻게 해야 합니까?
가정이 위반되면 다음 옵션을 고려하십시오.
- 양의 상관관계를 위해서는 종속변수나 독립변수 또는 두 변수 모두에 시차를 추가하는 것이 좋습니다.
- 음의 상관 관계의 경우 변수가 과차하지 않은지 확인하십시오.
- 계절 상관의 경우 몇 가지 계절 변수를 모델에 추가하는 것이 좋습니다.
다중공선성 없음
독립 변수는 상관되지 않아야 합니다. 독립변수 사이에 다중공선성이 존재하면 모델의 결과를 예측하기 어렵다. 본질적으로 종속변수와 독립변수의 관계를 설명하기는 어렵다. 즉, 어떤 독립변수가 종속변수를 설명하는지 불분명하다.

표준 오차는 상관 변수와 함께 부풀려지는 경향이 있으므로 신뢰 구간이 넓어져 추정치가 정확하지 않습니다.
가정이 충족되었는지 확인하는 방법은 무엇입니까?
산점도를 사용하여 변수 간의 상관 관계를 시각화합니다. 또 다른 방법은 VIF(Variance Inflation Factor)를 결정하는 것입니다. VIF<=4는 다중공선성이 없음을 의미하는 반면 VIF>=10은 심각한 다중공선성을 의미합니다.
이 가정을 위반하면 어떻게 해야 합니까?
상관 변수를 변환하거나 결합하여 변수 간의 상관 관계를 줄입니다.
필독: ML의 회귀 모델 유형
등분산성
등분산성은 잔차가 x의 모든 수준에서 일정한 분산을 가짐을 의미합니다. 이 현상이 없는 경우를 이분산성(heteroscedasticity)이라고 합니다. 이분산성은 일반적으로 이상치와 극단값이 있을 때 발생합니다.
가정이 충족되었는지 확인하는 방법은 무엇입니까?
잔차 대 적합치를 보여주는 산점도를 생성합니다. 데이터 포인트가 두드러진 패턴 없이 균등하게 분산되어 있으면 잔차가 일정한 분산(동분산성)을 가짐을 의미합니다. 그렇지 않고 깔때기 모양의 패턴이 보이면 잔차가 균등하게 분포되지 않고 일정하지 않은 분산(이분산성)을 나타냅니다.
이 가정을 위반하면 어떻게 해야 합니까?
- 종속 변수 변환
- 종속 변수 재정의
- 가중 회귀 사용
오차항의 정규분포
선형 회귀에 대해 확인해야 하는 마지막 가정은 오류 항의 정규 분포입니다. 오류 항이 정규 분포를 따르지 않으면 신뢰 구간이 너무 넓거나 좁아질 수 있습니다.
가정이 충족되었는지 확인하는 방법은 무엇입니까?
QQ(Quantile-Quantile) 플롯을 사용하여 가정을 확인합니다. 그래프의 데이터 포인트가 직선 대각선을 형성하면 가정이 충족됩니다.

Kolmogorov-Smironov 또는 Shapiro-Wilk 테스트와 같은 통계 테스트를 사용하여 오류 항의 정규성을 확인할 수도 있습니다.
이 가정을 위반하면 어떻게 해야 합니까?
- 이상치가 분포에 영향을 미치는지 확인합니다. 데이터 입력 오류가 아닌 실제 값인지 확인하십시오.
- 종속 변수, 독립 변수 또는 두 변수 모두에 로그, 제곱근 또는 역수 형태의 비선형 변환을 적용합니다.
결론
가정이 위반되지 않도록 위에서 설명한 기술을 적용하여 회귀의 진정한 힘을 활용하십시오. 선형 회귀의 모든 가정이 충족되면 독립 변수가 종속 변수에 미치는 영향을 이해하는 것이 실제로 가능합니다.
선형 회귀의 개념은 데이터 과학 및 기계 학습 프로그램의 필수 요소입니다.
회귀 모델과 기계 학습에 대해 자세히 알아보려면 작업 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구를 제공하는 IIIT-B & upGrad의 기계 학습 및 AI PG 디플로마를 확인하십시오. 및 과제, IIIT-B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.
선형 회귀에서 등분산성이 필요한 이유는 무엇입니까?
등분산성은 데이터가 평균에서 얼마나 유사하거나 얼마나 멀리 벗어났는지 설명합니다. 모수 통계 테스트는 차이에 민감하기 때문에 이것은 중요한 가정입니다. 이분산성은 계수 추정에서 편향을 유도하지 않지만 정밀도를 감소시킵니다. 정밀도가 낮을수록 계수 추정값이 올바른 모집단 값에서 벗어날 가능성이 높아집니다. 이를 피하기 위해 등분산성은 주장해야 할 중요한 가정입니다.
선형 회귀에서 두 가지 유형의 다중 공선성은 무엇입니까?
데이터 및 구조적 다중 공선성은 다중 공선성의 두 가지 기본 유형입니다. 다른 항으로 모델 항을 만들 때 구조적 다중 공선성을 얻습니다. 즉, 데이터 자체에 존재하는 것이 아니라 우리가 제공하는 모델의 결과입니다. 데이터 다중 공선성은 우리 모델의 인공물이 아니지만 데이터 자체에 존재합니다. 데이터 다중공선성은 관측 조사에서 더 일반적입니다.
독립 테스트에 t-검정을 사용할 때의 단점은 무엇입니까?
쌍을 이루는 표본 t-검정을 사용할 때 그룹 설계 간의 차이 대신 반복 측정에 문제가 있어 이월 효과가 발생합니다. 제1종 오류로 인해 t-검정은 다중 비교에 사용할 수 없습니다. 표본 집합에 대해 쌍체 t-검정을 수행할 때 귀무 가설을 기각하기 어려울 것입니다. 표본 데이터의 주제를 얻는 것은 연구 과정에서 시간과 비용이 많이 드는 측면입니다.