회귀 분석의 다중 공선성: 알아야 할 모든 것
게시 됨: 2020-12-23목차
소개
회귀는 하나의 종속 변수와 일련의 다른 독립 변수 간의 관계의 특성과 강도를 결정하려고 시도합니다. 그것은 다른 변수들 사이의 관계의 강도를 평가하고 그들 사이의 미래 관계의 모델을 만드는 데 도움이 됩니다. 회귀 분석에서 "다공선성"은 다른 예측 변수와 상관 관계가 있는 예측 변수를 나타냅니다.
다중공선성이란?
둘 이상의 예측 변수 간의 상관 관계가 높을 때마다 회귀 분석에서 다중 공선성이 발생합니다. 간단히 말해서, 다중 공선 예측자라고도 하는 예측 변수를 사용하여 다른 변수를 예측할 수 있습니다. 이로 인해 중복 정보가 생성되어 회귀 모델의 결과가 왜곡됩니다.
다중 공선 예측 변수의 예로는 자동차 판매 가격과 나이, 체중, 키 또는 연간 수입과 교육 연수가 있습니다.
상관 계수 계산은 모든 예측 변수 쌍에 대한 다중 공선성을 탐지하는 가장 쉬운 방법입니다. r인 경우 해당 상관 계수가 정확히 +1 또는 -1이면 완전 다중 공선성이라고 합니다. 상관 계수가 +1 또는 -1에 정확히 또는 가까우면 가능한 경우에만 변수 중 하나를 모델에서 삭제해야 합니다.
실험 데이터에서는 드물지만 관찰 연구에서 다중 공선성이 추악한 머리를 뒤로 젖히는 것은 매우 일반적입니다. 조건이 존재할 때 회귀의 신뢰할 수 없고 불안정한 추정으로 이어질 수 있습니다. 결과 분석을 통해 다음과 같은 몇 가지 다른 문제가 발생할 수 있습니다.
- t-통계량은 일반적으로 매우 작고 계수의 신뢰 구간은 넓습니다. 귀무가설을 기각하기 어려워진다는 의미다.
- 샘플에서 샘플로 전달될 때 부분 회귀 계수의 크기 및/또는 부호가 변경될 수 있습니다.
- 표준 오차가 클 수 있고 부분 회귀 계수 추정이 정확하지 않을 수 있습니다.
- 다중공선성으로 인해 독립변수가 종속변수에 미치는 영향을 측정하기 어려워진다.
읽기: 기계 학습의 회귀 모델 유형

다중공선성이 왜 문제인가?
단일 변수의 변경은 나머지 변수의 변경을 유발할 수 있으며, 이는 독립 변수의 상관 관계가 높을 때 발생합니다. 따라서 모델은 크게 변동하는 결과를 초래합니다. 모델의 결과는 불안정하고 매우 다양하기 때문에 데이터에 작은 변화가 발생하더라도 다음과 같은 문제가 발생합니다.
- 계수의 추정은 불안정하고 모델을 해석하기 어려울 것입니다. 즉, 예측 요인 중 하나라도 1단위 변경되면 출력 차이의 규모를 예측할 수 없습니다.
- 매번 다른 결과를 제공한다면 모델에 대한 중요한 변수의 목록을 선택하기 어려울 것입니다.
- 모델의 불안정한 특성으로 인해 과적합이 발생할 수 있습니다. 훈련 데이터 세트로 얻은 정확도와 비교하여 다른 데이터 샘플에 동일한 모델을 적용하면 정확도가 크게 떨어지는 것을 관찰할 수 있습니다.
상황을 고려할 때 중간 정도의 공선성 문제만 발생하면 모델에 문제가 되지 않을 수 있습니다. 그러나 공선성에 심각한 문제가 있는 경우 항상 문제를 해결하는 것이 좋습니다.
다중 공선성의 원인은 무엇입니까?
두 가지 유형이 있습니다.

- 회귀의 구조적 다중 공선성: 이것은 일반적으로 새로운 예측 변수를 생성하는 동안 연구원 또는 귀하에 의해 발생합니다.
- 회귀 데이터 기반 다중 공선성: 이것은 일반적으로 잘못 설계된 실험, 조작할 수 없는 데이터 수집 방법 또는 순수한 관찰 데이터로 인해 발생합니다. 몇몇 경우에는 100% 관찰 연구의 데이터 수집으로 인해 변수가 높은 상관 관계를 가질 수 있으며 연구원 측의 오류가 없습니다. 이 때문에 예측변수의 수준을 미리 설정하여 가능하면 실험을 항상 수행하는 것이 좋습니다.
읽어보기: 선형 회귀 프로젝트 아이디어 및 주제

다른 원인에는 다음이 포함될 수도 있습니다.
- 데이터 부족. 경우에 따라 충분한 양의 데이터를 수집하면 문제를 해결하는 데 도움이 될 수 있습니다.
- 더미로 사용된 변수가 잘못 사용될 수 있습니다. 예를 들어, 연구자는 모든 범주에 대해 더미 변수를 추가하거나 하나의 범주를 제외하는 데 실패할 수 있습니다.
- 회귀에서 다른 변수의 조합인 회귀 변수를 고려합니다. 예를 들어, 저축 이자 소득 + 채권 및 주식 소득인 경우 "총 투자 소득"을 고려합니다.
- 거의 또는 완전히 동일한 두 개의 변수를 포함합니다. 예를 들어, 채권/저축 소득 및 투자 소득, 무게(kg), 무게(파운드).
다중공선성이 발생했는지 확인하려면
모든 독립 변수의 상관 행렬을 그릴 수 있습니다. 또는 VIF, 즉 각 독립 변수에 대한 분산 인플레이션 계수를 사용할 수 있습니다. 다중 회귀 변수 집합에서 다중 공선성을 측정합니다. VIF의 값은 이 변수와 나머지 사이의 상관관계에 비례합니다. 즉, VIF 값이 높을수록 상관관계가 높아집니다.
다중 공선성 문제를 어떻게 해결할 수 있습니까?
- 변수 선택: 가장 쉬운 방법은 서로 상관관계가 높은 몇 가지 변수를 제거하고 집합에서 가장 중요한 변수만 남겨 두는 것입니다.
- 변수 변환: 두 번째 방법은 변수 변환으로 상관 관계를 줄이고 여전히 기능을 유지 관리합니다.
- 주성분 분석: 주성분 분석은 일반적으로 데이터를 여러 독립 요소로 분해하여 데이터 차원을 줄이는 데 사용됩니다. 예측 요소의 수를 줄임으로써 모델 계산을 단순화할 수 있는 것과 같은 응용 프로그램이 많이 있습니다.
관련 읽기: 기계 학습의 선형 회귀
결론
회귀 모델을 구축하기 전에 항상 다중 공선성 문제를 확인해야 합니다. 각 독립변수를 쉽게 보기 위해서는 나머지 독립변수와 상당한 상관관계가 있는지를 VIF로 확인하는 것이 좋습니다. 상관 행렬은 어떤 변수를 선택해야 하는지 확실하지 않을 때 중요한 요소를 선택하는 데 도움이 될 수 있습니다. 또한 일부 변수의 VIF 값이 높은 이유를 이해하는 데 도움이 됩니다.
기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.
기계 학습에서 서수 회귀라는 용어는 무엇을 의미합니까?
순서 회귀는 회귀 분석 계열에 속하는 회귀 분석 유형입니다. 순서 회귀는 데이터를 분석하고 하나의 종속 변수와 두 개 이상의 독립 변수 간의 관계를 예측 연구로 설명합니다. 순서 회귀는 수많은 범주와 독립 요인이 '순서화된' 경우 종속 변수를 예측하는 데 사용됩니다. 다시 말해, 순서가 다른 종속 변수가 하나 이상의 독립 변수와 더 쉽게 상호 작용할 수 있습니다.
다중 공선성의 존재가 의사 결정 트리에 영향을 줍니까?
특정 기계 학습 모델에서 두 가지 특성이 밀접하게 연관되어 있는 경우에도 의사 결정 트리는 분할하는 동안 그 중 하나만 선택합니다. 데이터가 왜곡되거나 불균형한 경우 단일 트리는 탐욕적인 접근으로 이어지지만 랜덤 포레스트 및 그래디언트 부스팅 트리와 같은 앙상블 학습 방법은 예측을 다중 공선성에 영향을 받지 않게 만듭니다. 결과적으로 랜덤 포레스트와 의사 결정 트리는 다중 공선성의 영향을 받지 않습니다.
로지스틱 회귀는 선형 회귀와 어떻게 다릅니까?
일부 측면에서 선형 회귀는 로지스틱 회귀와 다릅니다. 논리적 회귀는 개별 발언과 결과를 생성하지만 선형 회귀는 연속적이고 지속적인 출력을 생성합니다. 선형 회귀에서는 평균 제곱 오차가 계산되지만 로지스틱 회귀에서는 최대 우도 추정이 계산됩니다. 마지막으로 선형 회귀의 목표는 데이터와 일치하는 가장 좋은 선을 식별하는 것이지만 로지스틱 회귀는 데이터를 S자 곡선에 맞추는 방식으로 진행됩니다.