데이터 마이닝의 회귀: 다양한 유형의 회귀 기술 [2022]
게시 됨: 2021-01-01지도 학습 은 이미 레이블이 지정된 데이터를 사용하여 기계 학습 알고리즘을 훈련하는 학습입니다. 이것은 모든 훈련 데이터에 대해 정답이 이미 알려져 있음을 의미합니다. 훈련 후에는 지도 학습 알고리즘이 분석한 새로운 미지의 데이터 세트가 제공되며 레이블이 지정된 훈련 데이터를 기반으로 올바른 결과를 생성합니다.
비지도 학습 은 정확한 레이블을 알 수 없는 정보를 사용하여 알고리즘을 학습하는 것입니다. 여기서 기계는 기본적으로 사전에 데이터에 대한 교육 없이 다양한 패턴 또는 상관 관계에 따라 정보를 그룹화해야 합니다.
회귀 는 연속 값 속성을 예측하려고 시도하는 지도 머신 러닝 기술의 한 형태입니다. 대상 변수(종속)와 예측 변수(독립) 간의 관계를 분석합니다. 회귀는 시계열 모델링, 예측 등에 사용할 수 있는 데이터 분석을 위한 중요한 도구입니다.
회귀에는 다양한 데이터 포인트에 곡선이나 직선을 맞추는 과정이 포함됩니다. 곡선과 데이터 포인트 사이의 거리가 최소가 되도록 하는 것입니다.
선형 및 로지스틱 회귀가 가장 널리 사용되는 유형이지만 특정 데이터 집합에 대한 성능에 따라 적용할 수 있는 다른 유형의 회귀가 많이 있습니다. 이러한 다른 유형은 모든 종속 변수의 수와 유형, 그리고 형성된 회귀 곡선의 유형에 따라 다릅니다.
확인: 데이터 과학과 데이터 마이닝의 차이점
목차
선형 회귀
선형 회귀는 최적의 직선을 사용하여 대상(종속) 변수와 하나 이상의 독립 변수 사이의 관계를 형성합니다.
다음 방정식으로 표현됩니다.
Y = a + b*X + e ,
여기서 는 절편, b는 회귀선의 기울기, e는 오차입니다. X와 Y는 각각 예측 변수와 목표 변수입니다. X가 둘 이상의 변수(또는 기능)로 구성되는 경우 이를 다중 선형 회귀라고 합니다.
가장 적합한 선은 최소 제곱 방법을 사용하여 달성됩니다. 이 방법은 각 데이터 포인트에서 회귀선까지의 편차 제곱합을 최소화합니다. 모든 편차가 제곱되기 때문에 음수 및 양수 거리는 여기에서 상쇄되지 않습니다.
다항식 회귀
다항식 회귀에서 독립 변수의 검정력은 회귀 방정식에서 1보다 큽니다. 다음은 예입니다.
Y = a + b*X^2
이 특정 회귀에서 가장 잘 맞는 선은 선형 회귀에서와 같이 직선이 아닙니다. 그러나 모든 데이터 포인트에 맞는 곡선입니다.
다항식 회귀를 구현하면 곡선을 더 복잡하게 만들어 오류를 줄이려고 할 때 과적합이 발생할 수 있습니다. 따라서 항상 곡선을 문제에 일반화하여 곡선을 맞추십시오.
로지스틱 회귀
로지스틱 회귀는 종속 변수가 이진 특성(True 또는 False, 0 또는 1, 성공 또는 실패)일 때 사용됩니다. 여기서 목표값(Y)은 0부터 1까지이며 분류 유형 문제에 널리 사용됩니다. 로지스틱 회귀는 선형 회귀의 경우와 같이 종속 변수와 독립 변수가 선형 관계를 가질 필요가 없습니다.

읽기 : 데이터 마이닝 프로젝트 아이디어
능선 회귀
Ridge Regression은 다중공선성의 문제가 있는 다중회귀 데이터를 분석하는데 사용되는 기법이다. 다중 공선성은 두 독립 변수 사이에 거의 선형 상관 관계가 존재한다는 것입니다.
최소 제곱 추정치의 편향은 낮지만 분산이 높아 실제 값과 매우 다를 때 발생합니다. 따라서 추정된 회귀값에 편향 정도를 더함으로써 능선 회귀를 구현함으로써 표준 오차를 크게 줄일 수 있다.
올가미 회귀
A S S O " LASSO "라는 용어는 A S 선형회귀의 일종이다. 수축 을 사용합니다 . 여기에서 모든 데이터 포인트는 평균이라고도 하는 중심점으로 축소(축소)됩니다. 올가미 절차는 비교적 적은 수의 모수가 있는 단순하고 희소한 모델에 가장 적합합니다. 이러한 유형의 회귀는 다중 공선성이 있는 모델에도 적합합니다(릿지처럼).
세계 최고의 대학에서 데이터 과학 인증 을 획득 하십시오. 귀하의 경력을 빠르게 추적하려면 Executive PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램에 가입하십시오.
결론
회귀 분석을 사용하면 기본적으로 광범위한 척도에서 측정된 다양한 종류의 특성 변수의 효과를 비교할 수 있습니다. 총 면적, 지역, 연령, 가구 등을 기반으로 한 주택 가격 예측과 같은 결과입니다. 이러한 결과는 시장 조사자 또는 데이터 분석가가 불필요한 기능을 제거하고 정확한 예측 모델을 구축하기 위해 최상의 기능 세트를 평가하는 데 큰 도움이 됩니다.
데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하세요. 이 PG 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
선형 회귀란 무엇입니까?
선형 회귀는 대상 변수 또는 종속 변수와 하나 이상의 독립 변수 간의 관계를 설정합니다. 방정식에 둘 이상의 예측 변수가 있으면 다중 회귀가 됩니다.
최소제곱법은 각 데이터 포인트에서 회귀선까지의 편차의 제곱합을 최소화하므로 최적선을 달성하기 위한 최상의 방법으로 간주됩니다.
회귀 기술은 무엇이며 왜 필요한가요?
변수 간의 관계를 추정하거나 예측하는 기술입니다. 관계는 두 변수 사이에서 발견됩니다. 하나는 목표이고 다른 하나는 예측 변수(x 및 y 변수라고도 함)입니다.
선형, 로지스틱, 단계적, 다항식, 올가미 및 능선과 같은 다양한 기술을 사용하여 이 관계를 식별할 수 있습니다. 이는 데이터 수집을 사용하여 예측을 생성하고 그 사이에 그래프를 표시하기 위해 수행됩니다.
선형 회귀 기법은 로지스틱 회귀 기법과 어떻게 다릅니까?
이 두 회귀 기술의 차이점은 종속 변수의 유형에 있습니다. 종속변수가 연속형이면 선형 회귀가 사용되고 종속 변수가 범주형이면 로지스틱 회귀가 사용됩니다.
이름에서도 알 수 있듯이 선형 또는 직선은 선형 기법에서 식별됩니다. 반면, 로지스틱 기법에서는 독립변수가 다항식으로 S자 곡선을 식별한다. 선형의 경우 결과는 연속적인 반면 로지스틱 기술의 경우 결과는 True 또는 False, 0 또는 1 등과 같은 범주에 있을 수 있습니다.