선형 회귀 모델: 무엇이며 어떻게 작동합니까?

게시 됨: 2020-12-16

소개

회귀 분석은 데이터를 모델링하고 분석하는 중요한 도구입니다. 둘 이상의 변수 사이의 관계를 찾는 것이 필수적입니다. 회귀는 데이터를 모델링하고 분석하는 데 도움이 되는 곡선 내에 데이터 포인트를 배치하는 데 도움이 됩니다. 회귀를 사용하면 예측 모델 및 데이터 세트의 평가를 위해 다양한 척도에서 변수를 측정하고 특성화할 수 있습니다.

반드시 읽어야 함: 선형 회귀 프로젝트 아이디어

회귀 모델

모델에는 데이터 표현에 사용되는 계수 값이 포함됩니다. 여기에는 해당 계수를 추정하는 데 사용되는 통계적 속성이 포함됩니다. 그것은 모든 표준 편차, 공분산 및 상관 관계의 융합입니다. 모든 데이터를 사용할 수 있어야 합니다.

회귀 모델은 정보 값(x)의 특정 배열을 통합하는 선형 조건이며, 이에 대한 답변은 해당 정보 값(y) 집합에 대한 예상 출력입니다. 정보 값(x)과 출력은 모두 숫자입니다.

선형 방정식은 계수라고 하고 그리스 대문자 베타(B)로 표시되는 각 정보 값 또는 세그먼트에 하나의 스케일 팩터를 할당합니다. 마찬가지로 하나의 추가 계수가 추가되어 선에 추가 수준의 기회가 제공되며(예: 2차원 플롯에서 전체적으로 진행) 이를 캡처 또는 경사 계수라고 합니다.

예를 들어, 기본 회귀(단순 x 및 단순 y)에서 모델 유형은 다음과 같습니다.

y = B0 + B1*x

하나 이상의 정보(x)가 있을 때 더 높은 측정에서 선은 평면 또는 초평면으로 알려져 있습니다. 이 선에 따른 묘사는 조건의 유형과 계수에 사용된 특정 품질입니다(예: 위 모델의 B0 및 B1).

회귀와 같은 재발 모델의 다면적 특성을 논의하는 것은 예상치 못한 일이 아닙니다 . 이것은 모델에서 사용된 계수의 수를 암시합니다.

계수가 0이 되는 시점에서 정보 변수가 모델에 미치는 영향을 적절하게 제거하고 모델을 사용하여 생성된 예측(0 * x = 0)에서 결과적으로 영향을 제거합니다. 이것은 계수의 최고 크기를 압축하여 일부를 0으로 몰아 재발 모델의 다면적 특성을 줄이기 위해 학습 계산을 변경하는 정규화 기술을 살펴보는 경우에 적합합니다.

회귀는 하나 이상의 변수를 사용하여 관계를 설정하는 직선으로 가장 잘 표현됩니다.

모델의 논리:

회귀 모델은 방정식 y=mx+c를 사용하므로

여기서 y= 독립변수

m = 기울기

c= 주어진 라인에 대한 절편

다중 독립 변수를 계산하기 위해 다중 회귀 모델이 구현됩니다. 완벽하게 작동하는 모델을 만드는 과정은 다음과 같습니다.

라이브러리 가져오기 - 기계 학습 모델 구현을 중심으로 하는 필수 매개변수가 있습니다. 첫 번째 라이브러리는 파이썬의 공식 머신 러닝 라이브러리이므로 sklearn을 포함해야 합니다. Numpy는 데이터를 배열로 변환하는 데 사용되며 데이터 세트의 파일에 액세스하기 위해 Pandas가 구현됩니다.
상대 데이터 세트 로드 - 이전에 가져온 Panda 변수의 도움으로 수행됩니다.
변수 분할 - 배열 요소에 필요한 독립 변수 또는 종속 변수의 수를 지정하고 정의합니다.
테스트 및 교육 데이터 분할 - 전체 데이터 세트는 데이터 세트에서 가져온 임의 값을 허용하고 용이하게 하기 위해 교육 및 테스트 도메인으로 나뉩니다.
올바른 모델 선택 - 적절한 선택을 위해서는 동일한 데이터 세트가 다른 모델과 함축되어 있는 시행착오 과정이 필요합니다.
출력 예측 - 모델은 독립 변수의 테스트 값으로 뒷받침되는 종속 변수에서 실행되며 이러한 모델에 대한 내장된 방법은 제시된 각 값에 대해 정성적 수학을 수행합니다.

이것은 선형 회귀 모델의 구현을 시작합니다. 선형 예측 함수는 앞에서 언급한 것처럼 관계 모델링을 위해 구현됩니다. 반응의 조건부 평균은 모델에 반응의 조건부 평균을 이동하는 데 필요한 예측 변수를 제공합니다.

이러한 예측 및 예측의 목표는 수반되는 응답 값을 추가하지 않고 추가 변수를 수용하는 것입니다. 적합한 모델은 해당 응답에 필요한 예측을 수행하기 위해 구현됩니다.

선형 회귀 모델은 예를 들어 편차 및 비용 함수를 최소화하여 구현에 다른 방법이 필요할 수 있는 최소 제곱 접근 방식과 함께 사용하는 것이 가장 바람직합니다. 일반 선형 모델에는 본질적으로 스칼라가 아닌 벡터인 응답 변수가 포함됩니다. 조건부 선형성은 모델링 과정에서 여전히 양의 값으로 추정됩니다. 그것들은 대규모로 다양하지만 로그 정규 분포와 관련된 치우친 분포로 더 잘 설명됩니다.

읽기: 기계 학습의 회귀 모델 유형

경고

두 변수가 관련되어 있다는 점을 감안할 때 이것은 하나가 다른 변수를 유발하는 기능을 배제하지 않습니다.

데이터 세트에 대한 선형 회귀 방정식이 시도되고 작동하는 경우 방정식이 완벽하게 적합하다는 의미는 아니며 유사한 전망을 가진 다른 반복이 있을 수 있습니다. 이 기술이 진짜인지 확인하려면 데이터 포인트로 선을 그려 방정식의 선형성을 찾으십시오.

요약하자면

선형 회귀 방법은 기회를 늘리고 문제에 대한 둘 이상의 관심 변수 간의 관계 및 이벤트의 예측 가능성을 찾을 수 있는 훨씬 더 우수하고 강력하며 통계적인 방법을 제공한다는 것이 입증되었습니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

선형 회귀 모델을 사용하는 동안 직면할 수 있는 몇 가지 문제를 언급하십시오.

선형 회귀는 종속 변수의 평균과 독립 요인 간의 관계를 예측하는 데 도움이 됩니다. 때때로 문제를 해결하는 유일한 방법은 종속 변수의 극단값을 보는 것이기 때문에 이것은 문제가 됩니다. 반면에 분위수 회귀는 이 문제를 해결하는 데 사용할 수 있습니다. 또한 선형 회귀는 제시된 데이터가 독립적이라고 가정하며 클러스터링 문제의 경우 잘못된 것입니다.

회귀에서 선형 상관 계수는 무엇입니까?

상관 계수는 단순 선형 회귀에서 변수 간의 관계를 분석하는 한 측면일 뿐입니다. 사실, 그것은 가장 강력하고 널리 사용되는 통계 분석 방법 중 하나입니다. 기본적으로 두 변수가 얼마나 밀접하게 연결되어 있는지 알려주는 통계량인 Pearson 곱-모멘트 상관계수는 가장 많이 사용되는 상관계수입니다. 선형 상관 계수는 두 변수 간의 선형 연관성의 강도를 평가합니다. 완전한 선형 연결은 한 변수의 변경이 다른 변수의 동일한 단위 변경을 유발하는 연결입니다.

회귀 분석은 모든 비즈니스에서 어떻게 도움이 됩니까?

회귀 분석을 통해 조직은 데이터 포인트가 무엇을 나타내는지 이해하고 비즈니스 분석 접근 방식을 적용하여 더 나은 결정을 내릴 수 있습니다. 이 정교한 통계 도구는 비즈니스 분석가와 데이터 전문가가 불필요한 변수를 제거하고 가장 관련성이 높은 변수를 선택하는 데 사용합니다. 조직에서는 추측 또는 가정과 같은 구식 기술을 제거하고 결과적으로 업무 성과를 높이는 데이터 기반 의사 결정을 사용하고 있습니다.