R의 다중 선형 회귀 [그래프 및 예제 포함]

게시 됨: 2020-10-16

데이터 과학자로서 많은 프로젝트에서 예측 분석을 수행하라는 요청을 자주 받습니다. 분석은 종속 변수와 독립 변수 집합 간의 관계를 설정하기 위한 통계적 접근 방식입니다. 이 전체 개념은 기본적으로 단순 선형 회귀와 다중 선형 회귀의 두 가지 유형이 있는 선형 회귀라고 할 수 있습니다.

R은 데이터 과학 및 분석 측면에서 가장 중요한 언어 중 하나이며 R의 다중 선형 회귀도 가치가 있습니다. 단일 응답 변수 Y가 여러 예측 변수에 선형적으로 의존하는 시나리오를 설명합니다.

목차

선형 회귀란 무엇입니까?

선형 회귀 모델은 다음 사이의 관계를 보여주거나 예측하는 데 사용됩니다. 종속변수와 독립변수. 회귀분석에 사용되는 독립변수가 2개 이상인 경우 모형은 단순한 선형이 아니라 다중회귀 모형이다.

단순 선형 회귀는 다른 변수를 사용하여 한 변수의 값을 예측하는 데 사용됩니다. 직선은 선형 회귀를 사용하여 두 변수 간의 관계를 나타냅니다.

코딩 경험이 필요하지 않습니다. 360° 경력 지원. IIIT-B 및 upGrad에서 기계 학습 및 AI PG 디플로마.

다중 회귀에서 두 개 이상의 독립 변수가 있는 종속 변수 사이에는 선형 관계가 있습니다. 관계는 또한 비선형일 수 있으며 종속 및 독립 변수는 직선을 따르지 않습니다.

다중 선형 회귀 모델 예측의 그림 표현

선형 및 비선형 회귀는 둘 이상의 변수를 사용하여 응답을 추적하는 데 사용됩니다. 비선형 회귀는 시행 착오의 가정에서 생성되며 실행하기가 비교적 어렵습니다.

다중 선형 회귀란 무엇입니까?

다중 선형 회귀는 둘 이상의 변수를 기반으로 변수의 결과를 예측하는 데 사용되는 통계 분석 기술입니다. 선형 회귀의 확장이며 다중 회귀라고도 합니다. 예측할 변수는 종속변수이며, 종속변수의 값을 예측하는 데 사용되는 변수를 독립변수 또는 설명변수라고 합니다.

다중 선형 회귀 분석을 통해 분석가는 모델의 변동과 각 독립 변수의 상대적 기여도를 결정할 수 있습니다. 다중 회귀에는 선형 회귀와 비선형 회귀의 두 가지 유형이 있습니다.

다중 회귀 공식

3개의 예측 변수(x)가 변수 y를 예측하는 다중 회귀는 다음 방정식으로 표현됩니다.

y = z0 + z1*x1 + z2*x2 + z3*x3

"z" 값은 회귀 가중치를 나타내며 베타 계수 입니다. 예측 변수와 결과 간의 연관성입니다.

  • yi 는 종속 변수 또는 예측 변수입니다 .
  • z0 은 y절편, 즉 x1과 x2가 0일 때 y의 값입니다.
  • z1 z2 는 각각 x1 x2 의 1 단위 변화와 관련된 y의 변화를 나타내는 회귀 계수 입니다.

다중 선형 회귀의 가정

다중회귀에 대한 간략한 설명과 기본공식에 대해 알아보았습니다. 그러나 다중 선형 회귀가 다음과 같이 자세히 설명하는 몇 가지 가정이 있습니다.

나. 종속변수와 독립변수의 관계

종속 변수는 각 독립 변수와 선형적으로 관련됩니다. 선형 관계를 확인하기 위해 산점도를 생성하고 선형성을 관찰합니다. 산점도 관계가 비선형이면 비선형 회귀가 수행되거나 통계 소프트웨어를 사용하여 데이터가 전송됩니다.

ii. 독립 변수는 많은 상관 관계가 없습니다.

데이터는 독립 변수가 서로 높은 상관 관계가 있는 경우에 발생하는 다중 공선성을 나타내지 않아야 합니다. 이렇게 하면 종속 변수의 분산에 기여하는 특정 변수를 가져오는 데 문제가 발생합니다.

iii. 잔차 분산이 일정함

다중 선형 회귀는 나머지 변수의 오차가 선형 모델의 각 지점에서 유사하다고 가정합니다. 이것은 등분산성으로 알려져 있습니다. 데이터 분석이 완료되면 예측된 값에 대한 표준 잔차가 표시되어 점이 독립 변수 값에 적절하게 분포되어 있는지 확인합니다.

iv. 관측 독립

관측값은 서로에 대한 것이어야 하고 잔차 값은 독립적이어야 합니다. Durbin Watson 통계가 가장 잘 작동합니다.

이 방법은 0에서 4 사이의 값을 표시하며, 0에서 2 사이의 값은 양의 자기상관을 나타내고 2에서 4까지는 음의 자기상관을 나타냅니다. 값이 2인 중간점은 자기상관이 없음을 나타냅니다.

데이터 과학 고급 인증, 250명 이상의 고용 파트너, 300시간 이상의 학습, 0% EMI

v. 다변량 정규성

다변량 정규성은 정규 분포 잔차에서 발생합니다. 이 가정을 위해 잔차 값이 어떻게 분포되어 있는지 관찰합니다. 두 가지 방법을 사용하여 테스트할 수 있습니다.

· 중첩된 법선 곡선을 보여주는 히스토그램과

· 정규 확률도 방법.

다중 선형 회귀가 적용된 경우

다중 선형 회귀는 분석가의 관점에서 매우 중요한 측면입니다. 다음은 개념을 적용할 수 있는 몇 가지 예입니다.

나. 종속변수의 값은 독립변수와 상관관계가 있으므로 다중회귀분석은 특정 강우량, 온도 및 비료 수준에서 작물의 예상 수확량을 예측하는 데 사용됩니다.

ii. 다중 선형 회귀 분석은 추세와 미래 값을 예측하는 데도 사용됩니다. 이것은 지금부터 6개월 후의 금 가격을 예측하는 데 특히 유용합니다.

iii. UBER 운전자가 운행하는 거리와 운전자의 연령 및 운전자의 경력 년 간의 관계가 제거되는 특정 예에서. 이 회귀에서 종속변수는 UBER 운전자가 커버하는 거리. 독립변수는 운전자의 나이와 운전경력 년수이다.

iv. 다중 회귀 분석을 사용하여 한 학급의 GPA와 그들이 공부한 시간과 학생의 키 사이의 관계를 찾는 또 다른 예입니다. 이 회귀분석에서 종속변수는 GPA이고 독립변수는 학습시간과 학생의 키이다.

v. 조직에서 직원 그룹의 급여와 조직 연수 간의 관계는 회귀 분석을 통해 직원의 연령을 결정할 수 있습니다. 이 회귀분석의 종속변수는 급여이고 독립변수는 직원의 경력과 나이입니다.

더 읽어보기: 기계 학습에서 알아야 할 6가지 유형의 회귀 모델

R의 다중 선형 회귀

다중 선형 회귀를 실행할 수 있는 방법은 여러 가지가 있지만 일반적으로 통계 소프트웨어를 통해 수행됩니다. 가장 많이 사용되는 소프트웨어 중 하나는 무료이고 강력하며 쉽게 사용할 수 있는 R입니다. 먼저 R을 사용하여 회귀를 수행하는 단계를 배우고 명확한 이해의 예가 이어집니다.

R에서 다중 회귀를 수행하는 단계

  1. 데이터 수집: 예측에 사용할 데이터가 수집됩니다.
  2. R에서 데이터 캡처: 코드를 사용하여 데이터 캡처 및 CSV 파일 가져오기
  3. R로 데이터 선형성 확인: 종속 변수와 독립 변수 사이에 선형 관계가 존재하는지 확인하는 것이 중요합니다. 산점도 또는 R의 코드를 사용하여 수행할 수 있습니다.
  4. R에서 다중 선형 회귀 적용하기: 코드를 사용하여 R에서 다중 선형 회귀 를 적용 하여 계수 세트를 얻습니다.
  5. R로 예측하기: 예측값은 마지막에 결정됩니다.

R의 다중 회귀 구현

담배를 피우는 인구, 출근하는 사람, 심장병을 앓고 있는 사람들에 대한 데이터를 수집하기 위해 보건 연구원들이 특정 장소에서 설문 조사를 실시하면 R이 어떻게 구현되는지 이해하게 될 것입니다.

R의 다중 선형 회귀에 대한 단계별 가이드:

나. heart.data 데이터 세트를 로드하고 다음 코드를 실행합니다.

lm<-lm(심장질환 ~ 자전거 + 흡연, 데이터 = 심장.데이터)

데이터 세트 심장. 데이터는 'lm()'(선형 모델에 대한 방정식)을 사용하여 독립 변수 자전거 및 흡연이 종속 변수 심장 질환에 미치는 영향을 계산합니다.

ii. 결과 해석

summary() 함수를 사용하여 모델의 결과를 봅니다.

요약(heart.disease.lm)

이 함수는 선형 모델에서 얻은 가장 중요한 매개변수를 아래와 같은 테이블에 넣습니다.

이 표에서 우리는 다음을 추론할 수 있습니다.

  • '콜'의 공식,
  • 모델의 잔차('잔차'). 잔차가 대략 0을 중심으로 하고 양쪽에 비슷한 분포가 있는 경우(중앙값 0.03, 최소값과 최대값 -2 및 2), 모델은 이분산성 가정에 맞습니다.
  • 모델의 회귀 계수('계수').

계수 테이블의 행 1(절편): 회귀 방정식의 y 절편이며 회귀 방정식을 연결하고 종속 변수 값을 예측하기 위해 추정된 절편을 아는 데 사용됩니다.

심장병 = 15 + (-0.2*자전거) + (0.178*흡연) ± e

다중 회귀와 관련된 일부 용어

나. Estimate Column : 추정된 효과로 회귀계수 또는 r2 값이라고도 합니다. 추정치에 따르면 출근하기 위해 자전거를 타는 사람이 1% 증가할 때마다 심장병이 0.2% 감소하고 흡연이 1% 증가할 때마다 심장병이 0.17% 증가합니다.

ii. Std.error : 표준오차를 표시합니다. 견적의. 이것은 회귀 계수 추정치 주변의 변동을 나타내는 숫자입니다.

iii. t 값 : 테스트 통계 를 표시합니다 . 양측 t-검정 t 값입니다 .

iv. Pr( > | t | ) : t 값이 발생할 확률 을 나타내는 p입니다.

결과 보고

추정된 효과, 표준 추정 오차 및 p 값을 포함해야 합니다.

위의 예에서 직장까지 자전거를 타는 빈도와 심장병의 빈도와 흡연과 심장병의 빈도 사이의 유의한 관계는 p < 0.001인 것으로 나타났습니다.

심장병 빈도는 자전거 타기가 1% 증가할 때마다 0.2%(또는 ± 0.0014) 감소합니다. 흡연이 1% 증가할 때마다 심장병 빈도가 0.178%(또는 ±0.0035) 증가합니다.

결과의 그래픽 표현

여러 독립변수가 종속변수에 미치는 영향을 그래프로 표시할 수 있습니다. 여기서 x축에는 하나의 독립변수만 그릴 수 있습니다.

다중 선형 회귀: 그래픽 표현

여기에 자전거로 출퇴근하는 사람들의 비율에 대한 관측값에 대한 종속변수(심장병)의 예측값이 표시됩니다.

독립변수에 대한 흡연의 영향에 대해 최소, 평균 및 최대 흡연율에서 흡연을 일정하게 유지하면서 예측값이 계산됩니다.

또한 읽기: 선형 회귀 대. 로지스틱 회귀: 선형 회귀와 로지스틱 회귀의 차이점

마지막 단어

이것으로 이 블로그 포스트를 마칩니다. 다중 선형 회귀의 개념과 예측 분석을 쉽게 하기 위해 R의 다중 회귀가 구현되는 방법을 설명하기 위해 최선을 다했습니다.

데이터 과학 여정을 지지하고 경력을 강화하기 위해 R 및 기타 여러 언어에 대한 더 많은 개념을 배우고 싶다면 upGrad 에 가입하십시오 . 우리는 일하는 전문가를 위해 특별히 설계된 데이터 과학의 고급 인증 프로그램을 제공하며 지속적인 멘토링과 함께 300시간 이상의 학습을 포함합니다.

R 프로그래밍 언어의 용도는 무엇입니까?

지난 10년 동안 R 프로그래밍 언어는 학계와 비즈니스에서 자주 사용된 덕분에 계산 통계, 인식 및 데이터 과학을 위한 가장 인기 있는 도구가 되었습니다. R 프로그래밍 응용 프로그램은 가상, 계산 통계 및 천문학, 화학, 유전학과 같은 하드 과학에서 비즈니스, 약물 개발, 금융, 건강 관리, 마케팅, 의학 및 기타 여러 분야의 실용적인 응용 프로그램에 이르기까지 다양합니다. R 프로그래밍은 금융 분야의 많은 양적 분석가가 사용하는 주요 프로그래밍 도구입니다.

선형 회귀는 무엇에 사용됩니까?

선형 회귀 분석은 다른 값에 따라 한 변수의 값을 예측합니다. 예측하려는 변수를 종속 변수라고 합니다. 다른 변수의 값을 예측하는 데 사용하는 변수를 독립 변수라고 합니다. 이 유형의 분석은 종속 변수의 값을 가장 잘 예측하는 하나 이상의 자유 변수를 포함하는 선형 방정식의 계수를 계산합니다. 선형 회귀는 예상 출력 값과 실제 출력 값 간의 차이를 최소화하는 직선 또는 표면을 일치시키는 데 사용됩니다.

R 프로그래밍이 어렵습니까?

아니요, R 프로그래밍은 배우기 쉽습니다. R 프로그래밍은 사용자가 데이터를 정리, 분석 및 그래프로 표시하는 데 사용할 수 있는 통계 컴퓨팅 및 그래픽 프로그래밍 언어입니다. 여러 분야의 연구원들이 통계 및 연구 기술 교수에 의해 결과를 추정하고 표시하기 위해 광범위하게 사용합니다. R의 가장 중요한 기능 중 하나는 오픈 소스라는 것입니다. 즉, 누구나 프로그램을 실행하는 기본 코드에 액세스하고 자신의 코드를 무료로 추가할 수 있습니다. 누구나 자신의 R 코드를 개발할 수 있습니다. 이는 누구나 R의 광범위한 도구 세트에 기여할 수 있음을 의미합니다.