기계 학습의 선형 회귀: 알아야 할 모든 것

게시 됨: 2020-04-28

다양한 기계 학습 기술이 데이터, 분석 및 경험을 기반으로 하는 방식으로 일상적인 문제에 대한 솔루션을 찾기 위해 일상 생활의 여러 단계에서 사용됩니다. 이러한 머신 러닝 알고리즘은 텍스트, 이미지 및 비디오를 식별하는 데 매우 중요한 역할을 할 뿐만 아니라 의료 솔루션, 사이버 보안, 마케팅, 고객 서비스 및 일상 생활과 관련된 기타 여러 측면이나 영역을 개선하는 데 중요한 역할을 합니다.

모든 알고리즘이 구분되는 기계 학습 알고리즘에는 주로 두 가지 유형이 있습니다. 이것은 지도 및 비지도 머신 러닝 알고리즘입니다. 이 블로그에서는 지도 머신 러닝 알고리즘, 특히 선형 회귀에만 초점을 맞춥니다. 지도 머신 러닝 알고리즘을 이해하는 것부터 시작하겠습니다.

목차

지도 학습 알고리즘이란 무엇입니까?

이러한 기계 학습 알고리즘은 사용자가 입력한 데이터에 따라 잘 정립된 출력을 예측하도록 훈련하는 알고리즘입니다. 알고리즘은 주어진 데이터 세트에 대한 출력을 제공하도록 모델을 훈련합니다. 시작 시 시스템은 입력 및 출력 데이터에 모두 액세스할 수 있습니다. 시스템의 역할은 입력을 출력에 매핑할 규칙을 정의하는 것입니다.

성능이 최적 수준에 도달할 때까지 모델 교육이 계속됩니다. 훈련 후 시스템은 훈련하는 동안 만나지 못한 출력 객체를 할당할 수 있습니다. 이상적인 시나리오에서 이 프로세스는 매우 정확하고 시간이 많이 걸리지 않습니다. 지도 학습 알고리즘에는 분류 및 회귀의 두 가지 유형이 있습니다.

논의의 주요 주제로 바로 넘어가기 전에 두 가지 모두에 대해 간략하게 논의할 것입니다.

1. 분류

이들은 클래스 할당을 재현하는 단순한 목표를 가진 지도 머신 러닝 알고리즘입니다. 학습 기술은 종종 데이터 분리가 필요한 상황에서 고려됩니다. 응답을 예측하여 데이터를 클래스로 분리합니다. 예를 들어, 특정 날짜의 일기 예보, 앨범에서 특정 유형의 사진 식별, 이메일에서 스팸 분리.

2. 회귀

학습 기술은 출력 값을 재생산하는 목적을 달성하는 데 사용됩니다. 즉, 데이터를 특정 값에 맞춰야 하는 상황에서 사용됩니다. 예를 들어 다양한 품목의 가격을 추정하는 데 자주 사용됩니다. 회귀를 사용하여 상상할 수 있는 것보다 더 많은 것을 예측할 수 있습니다.

회귀 유형

로지스틱 회귀 및 선형 회귀는 기계 학습 및 데이터 과학의 현대 세계에 존재하는 두 가지 가장 중요한 회귀 유형입니다. 그러나 다른 것들도 있지만 아주 드물게 사용됩니다. 주어진 데이터 세트에 대해 수많은 회귀를 수행하거나 다양한 상황에 사용할 수 있다는 사실을 부인할 수 없습니다.

모든 형태의 회귀에는 장단점이 있으며 특정 조건에 적합합니다. 선형 공격에만 초점을 맞추겠지만, 그 작동 방식에 익숙해지려면 전체 배경을 알아야 합니다.

그것이 우리가 단계적으로 논의를 진행하는 이유입니다.

회귀 분석이란 무엇입니까?

회귀 분석은 독립 변수 또는 예측 변수와 종속 변수 또는 대상 사이에 존재하는 관계를 조사하는 것을 목표로 하는 예측 모델링 방법론일 뿐입니다. 이 분석은 시계열 모델링, 예측 등을 포함하여 다양한 분야에서 사용됩니다.

예를 들어, 도로 사고와 우연한 운전 사이의 관계를 연구하려는 경우 이 작업에 대한 회귀 분석보다 더 좋은 기술은 없습니다. 데이터를 분석하고 모델링하는 데 매우 중요한 역할을 합니다. 이것은 선 또는 곡선에서 데이터 포인트 거리의 차이를 최소화할 수 있는 방식으로 다른 데이터 포인트에 선이나 곡선을 맞춤으로써 수행됩니다.

회귀 분석이 필요한 이유는 무엇입니까?

회귀 분석은 변수의 수가 둘 이상인 경우에만 변수 간의 관계를 예측하는 데 사용됩니다. 간단한 예를 들어 이것이 어떻게 작동하는지 이해합시다. 기존 경제 상황을 염두에 두고 주어진 기간 동안 회사의 매출 성장을 추정해야 하는 작업이 주어졌다고 가정합니다.

이제 회사 데이터에 따르면 매출이 경제 성장의 약 2배 증가했습니다. 우리는 이 데이터를 사용하여 과거 및 현재 정보에서 통찰력을 취함으로써 향후 회사의 매출 성장을 예측할 수 있습니다.

회귀 분석을 사용하면 데이터로 작업하거나 데이터 세트에 대한 예측을 수행할 때 많은 이점을 얻을 수 있습니다. 독립 변수와 종속 변수 간의 중요한 관계를 가리키는 데 사용할 수 있습니다. 여러 독립 변수에서 종속 변수 경험의 영향을 나타내는 데 사용됩니다.

다른 측정 척도에 속하는 다른 변수의 효과를 비교할 수 있습니다. 이러한 것들은 데이터 과학자, 연구원 및 데이터 분석가가 가장 적절한 변수 세트를 기반으로 예측 모델을 구축하는 데 도움이 됩니다.

읽기: 기계 학습 프로젝트 아이디어 및 주제

올바른 회귀 모델을 선택하기 위해 염두에 두어야 할 사항은 무엇입니까?

글쎄요, 일반적으로 선택할 수 있는 기술이 2~3개만 있을 때 훨씬 쉽습니다. 그러나 마음대로 선택할 수 있는 옵션이 너무 많으면 결정이 훨씬 더 압도적이 됩니다. 결과가 연속적이기 때문에 이제 선형 회귀를 선택할 수 없습니다. 또는 결과가 이진이면 로지스틱 회귀로 이동합니다. 문제에 대한 회귀 모델을 선택할 때 고려해야 할 사항이 더 있습니다.

이미 언급했듯이 더 많은 회귀 모델을 사용할 수 있으며 머리를 숙일 수 있습니다. 그렇다면 선택을 할 때 염두에 두어야 할 것은 무엇입니까? 데이터 차원, 종속 및 독립 변수의 유형, 해당 데이터의 기타 속성 등 몇 가지 중요한 사항이 있습니다. 올바른 회귀 모델을 선택할 때 고려해야 할 몇 가지 중요한 사항은 다음과 같습니다.

데이터 탐색은 예측 모델 구축의 핵심입니다. 선택하기 전에 가장 먼저 해야 할 일 중 하나여야 합니다. 다양한 영향과 관계를 식별하기 위한 데이터를 탐색합니다.

교차 검증을 통해 예측을 위해 다양한 회귀 모델을 평가합니다. 데이터 세트를 훈련 그룹과 검증 그룹으로 분리하십시오. 예측된 값과 관찰된 값 간의 평균 제곱 차이는 예측 정확도에 대한 통찰력을 제공합니다.

Ridge, ElasticNet 및 기타 회귀 정규화 방법을 사용하여 다중 공선성과 차원이 높은 변수가 있는 데이터 세트에 적합한 모델을 선택합니다.

다른 회귀 모델과 적합성을 비교하기 위해 AIC, BIC, R-제곱, 오류 항 등과 같은 매개변수를 분석할 수 있습니다. Mallow's Cp라는 기준이 하나 더 있습니다. 모델을 다른 하위 모델과 비교하여 편향을 확인합니다.

작업 중인 데이터 세트에 여러 가지 복잡한 변수가 있는 경우 자동 모델 선택 방법을 사용하지 마십시오. 그렇게 하면 해당 변수를 한 번에 모델에 모두 넣는 방향으로 이동하게 됩니다.

목표는 올바른 회귀 모델을 선택하는 데에도 중요합니다. 강력한 모델이 필요한지, 간단한 모델이 필요한지, 아니면 통계적으로 중요한 모델이 필요한지는 목표에 따라 다릅니다.

선형 회귀란 무엇입니까?

선형 회귀가 무엇인지 자세히 알아보겠습니다. 지도 학습에 속하는 머신 러닝 기술 중 하나입니다. 기계 학습 기술의 수요 및 사용 증가는 여러 영역에서 선형 회귀 사용의 급격한 증가 뒤에 있습니다. 다층 퍼셉트론 레이어가 선형 회귀를 수행하는 것으로 알려져 있다는 사실을 알고 계셨습니까? 이제 선형 회귀가 적용되는 데이터 세트에 대해 만드는 것으로 알려진 가정에 대해 설명하겠습니다.

1. 자기상관:

선형 회귀에 의해 만들어진 이 가정은 데이터에서 자기 상관이 거의 ​​또는 전혀 없음을 나타냅니다. 자기 상관은 잔차 오차가 어떤 식으로든 서로 의존할 때 발생합니다.

2. 다중 공선성:

이 가정은 데이터 다중 공선성이 전혀 존재하지 않거나 거의 존재하지 않는다고 말합니다. 다중 공선성은 독립적인 기능이나 변수가 일부 종속성을 나타낼 때 발생합니다.

3. 변수 관계:

이 모델은 특성 변수와 응답 변수 사이에 선형 관계가 있다고 가정합니다.

선형 회귀를 사용할 수 있는 몇 가지 예에는 방의 수에 따른 집 가격 추정, 물을 얼마나 자주 주었는가에 따라 식물이 얼마나 잘 자랄지 결정 등이 포함됩니다. 이러한 모든 경우에 대해 서로 다른 변수 간에 존재하는 관계 유형에 대한 아이디어가 이미 있습니다.

선형 회귀 분석을 사용할 때 데이터로 아이디어나 가설을 뒷받침합니다. 다양한 변수 간의 관계를 더 잘 이해하게 되면 강력한 예측을 할 수 있는 더 나은 위치에 있게 됩니다. 아직 모른다면 선형 회귀가 지도 머신 러닝 기술이자 통계 모델이라는 것을 알려드리겠습니다.

기계 학습 측면에서 회귀 모델은 기계이며 학습은 데이터 세트에 대해 학습되는 이 모델과 관련되어 변수 간의 관계를 학습하고 데이터 기반 예측을 수행하는 데 도움이 됩니다.

선형 회귀는 어떻게 작동합니까?

분석을 실행하기 전에 업무를 잘 수행하는 팀과 그렇지 않은 팀의 두 가지 유형의 팀이 있다고 가정하겠습니다. 팀이 하는 일을 잘하지 못하는 데에는 여러 가지 이유가 있을 수 있습니다. 적절한 기술이 없거나 직장에서 특정 업무를 수행하는 데 필요한 경험이 없기 때문일 수 있습니다. 그러나 그것이 무엇인지 결코 확신할 수 없습니다.

선형 회귀를 사용하여 특정 작업 라인에 관련된 특정 팀에 가장 잘 맞는 데 필요한 모든 것을 갖춘 후보자를 찾을 수 있습니다. 이것은 우리가 그들의 직업을 잘 할 가능성이 높은 후보자를 선택하는 데 도움이 될 것입니다.

회귀 분석의 목적은 해당 데이터에 적합한 추세 곡선 또는 선을 만드는 것입니다. 이것은 한 매개변수(독립변수)가 다른 매개변수(종속변수)와 어떻게 관련되어 있는지 알아내는 데 도움이 됩니다.

무엇보다 먼저 서로 다른 후보자의 모든 속성을 자세히 살펴보고 어떤 식으로든 상관 관계가 있는지 알아내야 합니다. 상관 관계를 찾으면 이러한 속성을 기반으로 예측을 시작할 수 있습니다.

데이터의 관계 탐색은 추세 곡선 또는 선을 사용하고 데이터를 플로팅하여 수행됩니다. 상관 관계가 있는 경우 곡선 또는 선이 표시됩니다. 이제 선형 회귀를 사용하여 관계를 반박하거나 수용할 수 있습니다. 관계가 확인되면 회귀 알고리즘을 사용하여 그의 관계를 학습할 수 있습니다. 이를 통해 올바른 예측을 할 수 있습니다. 후보자가 그 직무에 적합한지 아닌지를 보다 정확하게 예측할 수 있을 것입니다.

모델 훈련의 중요성

선형 회귀 모델 학습과 관련된 프로세스는 다른 기계 학습 모델 학습 방법과 여러 면에서 유사합니다. 우리는 훈련 데이터 세트에 대해 작업하고 새로운 데이터 샘플을 예측하는 모델의 능력에 영향을 미치지 않는 방식으로 변수의 관계를 모델링해야 합니다. 모델은 예측 방정식을 지속적으로 개선하도록 훈련되었습니다.

주어진 데이터 세트를 반복적으로 반복하여 수행됩니다. 이 작업을 반복할 때마다 기울기 또는 비용 함수가 나타내는 방향으로 편향 및 가중치 값을 동시에 업데이트합니다. 훈련 완료 단계는 오류 임계값에 도달하거나 후속 훈련 반복으로 비용 절감이 없을 때 도달합니다.

모델 훈련을 시작하기 전에 준비해야 할 몇 가지 사항이 있습니다. 필요한 반복 횟수와 학습 속도를 설정해야 합니다. 이 외에도 가중치에 대한 기본값도 설정해야 합니다. 또한 반복할 때마다 달성할 수 있는 진행 상황을 기록합니다.

정규화란 무엇입니까?

다른 것보다 선호되는 선형 회귀 변형에 대해 이야기하는 경우 정규화가 추가된 변형을 언급해야 합니다. 정규화에는 다른 모델보다 절대값이 더 큰 모델의 가중치에 페널티가 적용됩니다.

정규화는 과적합을 제한하기 위해 수행되며, 이는 모델이 훈련 데이터 관계를 너무 밀접하게 재현할 때 자주 하는 일입니다. 모델이 이전에 본 적이 없는 샘플을 예상대로 일반화하는 것을 허용하지 않습니다.

선형 회귀는 언제 사용합니까?

선형 회귀의 힘은 그것이 얼마나 단순한가에 있습니다. 거의 모든 질문에 대한 답을 찾는 데 사용할 수 있음을 의미합니다. 선형 회귀 알고리즘을 사용하기 전에 데이터 세트가 작동하는 필수 조건을 충족하는지 확인해야 합니다.

이러한 조건 중 가장 중요한 것은 데이터 세트의 변수 사이에 선형 관계가 존재한다는 것입니다. 이렇게 하면 쉽게 플롯할 수 있습니다. 예측값과 실제 달성값 사이에 존재하는 차이가 일정하다는 것을 확인해야 합니다. 예측된 값은 여전히 ​​독립적이어야 하며 예측 변수 간의 상관 관계는 편안하기에는 너무 가까워야 합니다.

선을 따라 데이터를 플로팅한 다음 구조를 철저히 연구하여 데이터 세트가 원하는 조건을 충족하는지 여부를 확인할 수 있습니다.

선형 회귀 사용

선형 공격이 분자 수준에서 해석을 더 쉽게 만드는 단순성은 가장 큰 장점 중 하나입니다. 선형 회귀는 변수가 선형 관계를 갖는 모든 데이터 세트에 적용될 수 있습니다.

기업은 판매 데이터인 선형 회귀 알고리즘을 사용할 수 있습니다. 새로운 제품을 출시할 계획인 기업이 있다고 가정해 보겠습니다. 그러나 이 제품을 얼마에 팔아야 하는지 잘 모르겠습니다. 몇 가지 잘 생각한 가격대에 제품을 판매하면 고객이 제품에 어떻게 반응하는지 확인할 수 있습니다. 이를 통해 제품 판매와 가격 간의 관계를 일반화할 수 있습니다. 선형 회귀를 사용하면 고객이 수용할 가능성이 더 높은 가격대를 결정할 수 있습니다.

더 읽어보기: 인도의 기계 학습 급여

선형 회귀는 제품 소싱 및 생산의 여러 단계에서도 사용할 수 있습니다. 이러한 모델은 학술, 과학 및 의료 분야에서 널리 사용됩니다. 예를 들어, 농부는 환경 조건을 자신에게 유리하게 사용할 수 있는 시스템을 모델링할 수 있습니다. 이것은 작물 수확량과 이익에 최소한의 피해를 입히는 방식으로 요소를 사용하는 데 도움이 될 것입니다.

이 외에도 의료, 고고학 및 노동 분야에서 다른 분야에서도 사용할 수 있습니다. 선형 모델에 대한 해석 방법

결론

회귀 분석은 최종 데이터에 직간접적인 영향을 미칠 수 있는 변수를 분류하기 위해 수학을 사용하는 널리 채택된 도구입니다. 분석이 진행되는 동안 염두에 두는 것이 중요합니다! 선형 회귀는 데이터 과학자가 데이터 세트의 변수 간의 선형 관계를 설정하는 데 사용하는 가장 일반적인 알고리즘 중 하나이며 수학적 모델은 예측 분석에 필요합니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

선형 회귀에 제한 사항이나 단점이 있습니까?

선형 회귀는 종속 변수와 하나 이상의 독립 변수 간의 관계를 이해하는 데 사용되는 널리 사용되는 방법입니다. 선형 회귀 모델은 기계 학습 모델을 개발하는 데 광범위하게 사용되지만 특정 제한 사항이 있습니다. 예를 들어, 이 회귀 알고리즘은 변수 간의 모든 관계가 선형이라고 가정하므로 종종 오해의 소지가 있습니다. 그런 다음 독립변수와의 관계를 조사하면서 항상 종속변수의 평균값을 고려합니다. 다음으로, 선형 회귀는 항상 데이터가 상호 배타적이라고 가정합니다. 게다가 선형 회귀는 일반적으로 이상값이나 예상치 못한 데이터에 민감합니다.

회귀분석이 인기 있는 이유는 무엇입니까?

회귀 분석은 기계 학습에서 사용되는 가장 유용하고 강력한 통계 기법 중 하나입니다. 인기를 얻는 데에는 다양한 이유가 있습니다. 첫째, 회귀 분석은 엄청난 다양성으로 인해 광범위한 응용 프로그램과 함께 제공됩니다. 회귀 분석 모델은 구현 및 해석이 매우 간단합니다. 즉, 작동 방식을 쉽게 설명하고 결과를 해석할 수 있습니다. 회귀 분석을 이해하면 기계 학습 통계 모델을 확실히 이해할 수 있습니다. 또한 R 및 Python과 같은 프로그래밍 언어를 사용하여 보다 효율적인 기계 학습 모델을 개발하는 데 도움이 됩니다. 또한, 이 기술은 유용한 예측을 만들기 위해 인공 신경망과의 뛰어난 통합성을 제공합니다.

기업은 어떻게 선형 회귀를 이점에 적용할 수 있습니까?

기업은 선형 회귀를 사용하여 수익성에 영향을 미치는 소비자 행동에 대한 유용한 데이터 통찰력을 조사하고 생성할 수 있습니다. 또한 기업이 시장 동향을 추정하고 평가하는 데 도움이 될 수 있습니다. 마케터는 선형 회귀를 사용하여 제품의 판촉 및 가격 책정과 관련된 마케팅 전략의 효율성을 평가할 수 있습니다. 금융 및 보험 회사는 위험을 효과적으로 평가하고 중요한 비즈니스 결정을 내릴 수 있습니다. 신용 카드 회사는 선형 회귀 모델을 사용하여 채무 불이행으로 인한 위험 포트폴리오를 최소화하는 것을 목표로 할 수 있습니다.