기계 학습의 등분산성: 탐지, 효과 및 치료 방법

게시 됨: 2021-01-06

이 튜토리얼을 마치면 다음에 대해 알게 될 것입니다.

  • 동분산과 이분산이란 무엇입니까?
  • 이분산성이 존재하는지 확인하는 방법.
  • 기계 학습에서 이분산성의 효과.
  • 이분산성 치료.

목차

등분산성과 이분산성이란?

동분산성은 "동일한 분산"을 의미합니다. 선형 회귀에서 주요 가정 중 하나는 오차 또는 잔차 항(Y_Pred – Y_actual)에 동분산성이 존재한다는 것입니다.

즉, 선형 회귀는 모든 인스턴스에 대해 오류 항이 동일하고 변동이 거의 없다고 가정합니다.

예제를 통해 이해해보자. 집의 카펫 면적과 집 가격이라는 두 가지 변수가 있다고 가정합니다. 카페트 면적이 증가함에 따라 가격도 상승합니다.

그래서 우리는 선형 회귀 모델을 피팅하고 오류가 전체적으로 동일한 분산임을 확인합니다. 아래 이미지의 그래프는 X축에 카펫 면적, Y축에 가격이 있습니다.

보시다시피 예측은 거의 선형 회귀선을 따르고 전체적으로 유사한 분산을 보입니다.

또한 이러한 잔차를 X축에 표시하면 X축에 평행한 직선을 따라 표시됩니다. 이것은 등분산성의 분명한 신호입니다.

이미지 소스

이 조건을 위반하면 모델에 이분산성이 있음을 의미합니다. 위와 같은 예를 고려하여 카페트 면적이 작은 주택의 경우 오차나 잔차 또는 매우 작은 경우를 가정해 보겠습니다. 그리고 카펫 면적이 증가함에 따라 예측의 분산이 증가하여 오차 또는 잔차 항의 값이 증가합니다. 값을 다시 플로팅하면 모델에 이분산성의 존재를 강력하게 나타내는 전형적인 Cone 곡선이 표시됩니다.

이미지 소스구체적으로 말하면, 이분산성은 독립 변수 범위에 대한 잔차 분산의 체계적인 증가 또는 감소입니다. 이는 등분산성이 선형 회귀의 가정이고 모든 오류가 동일한 분산이어야 하기 때문에 문제입니다. 선형 회귀에 대해 자세히 알아보기

세계 최고의 대학(석사, 대학원 대학원 과정, ML 및 AI 고급 인증 프로그램)기계 학습 과정 에 온라인으로 참여 하여 경력을 빠르게 추적하십시오.

이분산성이 존재하는지 어떻게 알 수 있습니까?

가장 간단한 용어로, 이분산성이 존재하는지 아는 가장 쉬운 방법은 잔차 그래프를 그리는 것입니다. 존재하는 패턴이 보이면 이분산성이 있습니다. 일반적으로 적합치가 증가함에 따라 값이 증가하여 원뿔 모양의 곡선을 만듭니다.

읽기: 기계 학습 프로젝트 아이디어

이분산성의 일반적인 이유

  • 변수의 편차가 클 때. 즉, 변수의 가장 작은 값과 가장 큰 값이 너무 극단적인 경우입니다. 이것들도 이상치가 될 수 있습니다.
  • 잘못된 모델을 피팅할 때. 선형 회귀 모델을 비선형 데이터에 맞추면 이분산성이 발생합니다.
  • 변수 값의 척도가 같지 않을 때.
  • 데이터에 대한 잘못된 변환이 회귀에 사용되는 경우.
  • 데이터에 왼쪽/오른쪽 왜도가 있는 경우.

순수 대 순수 이분산성

이제 위의 이유로 이분산성은 순수하거나 순수하지 않을 수 있습니다. 올바른 모델(선형 또는 비선형)을 피팅하고 아직 잔차에 가시적인 패턴이 있으면 이를 순수 이분산성이라고 합니다.

그러나 잘못된 모델을 피팅한 다음 잔차에서 패턴을 관찰하면 이는 불순한 이분산성의 경우입니다. 이분산성의 유형에 따라 이를 극복하기 위한 조치를 취해야 합니다. 또한 작업 중인 도메인에 따라 다르며 도메인마다 다릅니다.

기계 학습에서 이분산성의 효과

앞서 논의한 바와 같이 선형 회귀 모델은 데이터에 동분산성이 존재한다는 가정을 합니다. 그 가정이 깨지면 우리는 우리가 얻는 결과를 신뢰할 수 없을 것입니다.

이분산성이 존재하는 경우 분산이 큰 인스턴스는 우리가 원하지 않는 예측에 더 큰 영향을 미칩니다.

  • 이분산성이 있으면 계수가 덜 정확하므로 올바른 계수가 모집단 값에서 더 멀리 떨어져 있습니다.
  • 이분산성은 실제 값보다 작은 p-값을 생성할 수도 있습니다. 이는 계수 추정치의 분산이 증가했지만 표준 OLS(Ordinary Least Squares) 모델에서는 이를 감지하지 못했기 때문입니다. 따라서 OLS 모델은 과소평가된 분산을 사용하여 p-값을 계산합니다. 이것은 회귀 계수가 실제로는 유의하지 않을 때에도 유의하다는 잘못된 결론을 내리게 할 수 있습니다.
  • 생성된 표준 오차도 편향됩니다. 표준 오차는 중요한 검정 및 신뢰 구간을 계산하는 데 중요합니다. 표준 오차가 편향되면 검정이 부정확하고 회귀 계수 추정치가 부정확하다는 것을 의미합니다.

이분산성을 치료하는 방법?

이분산성의 존재를 감지하면 여러 가지 방법으로 해결할 수 있습니다. 먼저 도시 인구와 COVID-19 감염 수라는 2개의 변수가 있는 예를 살펴보겠습니다.

이제 이 예에서 대도시와 소규모 3등급 도시의 감염 수에는 큰 차이가 있습니다. 변수 감염 수는 독립 변수가 되고 도시 인구는 종속 변수가 됩니다.

이 데이터에 회귀 모델을 맞추는 것을 고려하고 위의 이미지와 유사한 이분산성을 관찰합니다. 이제 우리는 모델에 이분산성이 있다는 것을 알고 수정해야 합니다.

이제 첫 번째 단계는 이분산성의 원인을 식별하는 것입니다. 우리의 경우 분산이 큰 변수입니다.

이분산성을 처리하는 방법은 여러 가지가 있을 수 있지만 이러한 세 가지 방법을 살펴보겠습니다.

변수 조작

모델 예측에 대한 이 큰 분산의 영향을 줄이기 위해 변수/기능을 약간 수정할 수 있습니다. 기능을 실제 값이 아닌 비율 및 백분율로 수정하여 이를 수행하는 한 가지 방법입니다.

이렇게 하면 기능이 약간 다른 정보를 전달할 수 있지만 시도해 볼 가치가 있습니다. 또한 이러한 유형의 접근 방식을 구현할 수 있는지 여부는 문제와 데이터에 따라 달라집니다.

이 방법은 기능에 대한 수정을 최소화하고 종종 문제를 해결하는 데 도움이 되며 경우에 따라 모델의 성능을 향상시키기도 합니다.

따라서 우리의 경우 "감염 수" 기능을 "감염률"로 변경할 수 있습니다. 이것은 인구가 많은 도시의 감염 수가 분명히 많을 것이기 때문에 편차를 줄이는 데 도움이 될 것입니다.

가중 회귀

가중 회귀는 데이터 포인트에 분산에 따라 특정 가중치가 할당되는 일반 회귀의 수정입니다. 분산이 큰 항목에는 작은 가중치가 부여되고 분산이 작은 항목에는 큰 가중치가 부여됩니다.

따라서 이러한 가중치를 제곱할 때 작은 가중치의 제곱은 높은 분산의 효과를 과소평가합니다.

정확한 가중치가 사용되면 이분산성은 등분산성으로 대체됩니다. 그러나 정확한 무게를 찾는 방법은 무엇입니까? 한 가지 빠른 방법은 해당 변수의 역수를 가중치로 사용하는 것입니다.

따라서 우리의 경우 가중치는 도시 인구의 역수입니다.

변환

데이터를 변환하는 것은 기능의 해석 가능성을 잃게 되므로 최후의 수단입니다.

즉, 기능이 표시하는 내용을 더 이상 쉽게 설명할 수 없습니다.

한 가지 방법은 Box-Cox 변환 및 로그 변환을 사용하는 것입니다.

가기 전에

데이터의 이분산성에는 여러 가지 이유가 있을 수 있습니다. 또한 도메인마다 매우 다양합니다.

따라서 이분산성을 제거하기 위해 위의 프로세스를 시작하기 전에 이에 대한 지식이 있어야 합니다.

이 블로그에서 우리는 동분산과 이분산, 그리고 여러 기계 학습 알고리즘을 구현하는 데 사용할 수 있는 방법에 대해 논의했습니다.

머신 러닝에 대해 자세히 알아보려면 IIIT-B & upGrad의 기계 학습 및 AI 경영자 PG 프로그램을 확인하세요. 이 프로그램은 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT를 제공합니다. -B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

머신 러닝에서 로컬 가중 회귀란 무엇을 의미합니까?

이분산성에 대한 백색 검정은 무엇입니까?

독립 변수가 분산에 대해 상호 작용하는 비선형 효과를 갖도록 해야 하는 경우 이분산성을 확인하기 위해 백색 검정을 사용하는 것이 좋습니다. 그러나 백색검정은 점근검정으로서 표본이 많은 경우에만 선호된다. 이분산성 과정은 백색 검정을 사용하는 하나 이상의 독립 변수의 함수일 수 있습니다. 이것은 Breusch-Pagan 테스트와 비슷하지만 White 테스트는 오류 분산에 대한 독립 변수의 비선형 및 대화식 영향을 허용한다는 점만 다릅니다.

이분산성에 대한 귀무가설은 정확히 무엇입니까?

데이터에 이상치가 존재하면 이분산성이 발생합니다. 이분산성은 모델에서 변수를 생략할 때도 생성될 수 있습니다. 이분산성은 귀무가설과 대립가설의 두 가지 가설만을 의미합니다. 이분산성을 확인하기 위해 White 검정, Breusch-Pagan 또는 Cook-Weisberg 검정을 적용할 때 오차의 분산이 같으면 귀무 가설이 참입니다. 대립 가설은 오차의 분산이 동일하지 않을 때 발생합니다.