선형 회귀 대 로지스틱 회귀: 선형 회귀와 로지스틱 회귀의 차이점

게시 됨: 2020-09-10

가장 단순한 두 가지 기계 학습 알고리즘이 없으면 기계 학습의 세계는 완전하지 않을 것입니다. 예, 선형 회귀와 로지스틱 회귀는 모두 구현할 수 있는 가장 간단한 기계 학습 알고리즘입니다. 선형 회귀와 로지스틱 회귀의 차이점을 논의하기 전에 먼저 이 두 알고리즘의 기초가 놓여 있는 기본 사항을 이해해야 합니다.

우선, 이 두 알고리즘 모두 본질적으로 지도 학습입니다. 즉, 이 두 알고리즘 모두에 제공할 데이터에는 레이블이 잘 지정되어야 합니다. 주목해야 할 또 다른 중요한 사항은 사용 사례입니다. 이 두 알고리즘 사이의 눈에 띄는 차이점 중 하나는 두 가지 모두의 사용 사례입니다. 선형 회귀는 회귀를 수행하고자 할 때마다 사용됩니다. 즉, 특정 지역의 주택 가격과 같은 연속적인 숫자를 예측할 때마다 선형 회귀를 사용합니다.

그러나 로지스틱 회귀는 분류 문제에서 사용됩니다. 즉, 특정 주택이 (가격 대신) 비싸거나 저렴한지를 예측하려면 로지스틱 회귀 알고리즘을 사용합니다. 네, 로지스틱 회귀는 이름에 회귀라는 단어가 있지만 분류에 사용됩니다.

아래에 나열된 더 많은 흥미로운 미묘함을 찾을 수 있습니다. 그러나 선형 회귀와 로지스틱 회귀를 정면으로 비교하기 전에 먼저 이러한 각 알고리즘에 대해 자세히 알아보겠습니다.

목차

선형 회귀

선형 회귀는 이해하고 배포하기에 가장 쉽고 간단한 기계 학습 알고리즘입니다. 지도 학습 알고리즘이므로 연속 값을 예측하거나 회귀를 수행하려면 레이블이 잘 지정된 데이터 세트와 함께 이 알고리즘을 제공해야 합니다. 이 기계 학습 알고리즘은 선형 특성 때문에 가장 간단합니다. 미래 값을 성공적으로 예측하기 위해 선형 회귀는 알고리즘에 제공된 데이터를 통해 직선을 시도합니다.

따라서 선형 회귀 알고리즘에 정보가 입력될 때마다 데이터를 가져와 직선 방정식을 사용하여 가장 적합한 선을 찾을 때까지 기울기와 절편을 무작위로 선택합니다. 이 알고리즘에 제공하는 데이터에 단일 독립 변수만 포함되어 있으면 이를 단순 선형 회귀라고 합니다.

반면에 데이터에 여러 독립 변수가 있는 경우 회귀는 다중 선형 회귀가 됩니다. 선형 회귀의 수학적 형태는 단순히 직선의 형태이며 아래에 나와 있습니다.

y= a0+a1x+ c

여기서 y는 종속 변수이고, a0과 a1은 이 알고리즘이 찾아야 하는 계수, x는 종속 변수, c는 이 직선의 절편 값입니다.

로지스틱 회귀

로지스틱 회귀가 지도 학습 알고리즘의 우산 아래에서 가장 간단하면서도 매우 강력한 분류 기계 학습 알고리즘 중 하나라는 것은 말할 필요도 없습니다. 이 알고리즘은 회귀 문제에 사용할 수 있지만 대신 분류 문제를 해결하는 데 주로 사용됩니다. 이 알고리즘에서 얻는 출력은 항상 0과 1 사이에 있으므로 임계값 분류 값을 사용하여 인스턴스를 클래스로 분류하는 것이 쉬워집니다.

이름의 로지스틱이라는 단어는 이 회귀에서 사용되는 활성화 함수를 나타냅니다. 이 경우 활성화 함수 또는 로지스틱 함수는 실제로 시그모이드 함수일 뿐입니다. 로지스틱 회귀의 값을 항상 0과 1 사이에 유지하는 것은 이 시그모이드 함수의 속성입니다. 시그모이드 함수는 다음과 같습니다.

여기서 y는 시그모이드 함수를 통한 출력값이고 x는 독립변수입니다. 로지스틱 회귀의 경우 변수 x는 실제로 전체 선형 회귀 방정식이 됩니다. 따라서 로지스틱 회귀 방정식을 개발할 수 있으며 다음과 같습니다.

여기서 변수의 의미는 로지스틱 회귀분석에서의 의미와 유사하며 x는 독립변수, y는 종속변수, b0, b1, b2 등은 이 알고리즘이 결정하는 계수이다.

선형 회귀와 로지스틱 회귀의 차이점

아래 목록에서 선형 회귀와 로지스틱 회귀를 나란히 종합적으로 비교한 내용을 확인할 수 있습니다.

선형 회귀 로지스틱 회귀
레이블이 잘 지정된 데이터가 필요하므로 감독이 필요하며 회귀에 사용됩니다. 따라서 선형 회귀는 지도 회귀 알고리즘입니다. 또한 레이블이 잘 지정된 데이터에 입력해야 합니다. 그러나 이 알고리즘은 회귀 대신 분류에 사용됩니다. 따라서 로지스틱 회귀는 지도 분류 알고리즘입니다.
선형 회귀 알고리즘을 통해 얻은 예측은 일반적으로 음의 무한대에서 양의 무한대 범위에 있을 수 있는 값입니다. 로지스틱 회귀를 통해 얻은 예측은 실제로 0에서 1 사이의 범위에 있습니다. 이 기능을 사용하면 임계값을 사용하여 쉽게 분류할 수 있습니다.
선형 회귀에는 활성화 기능이 필요하지 않습니다. 여기에서 활성화 기능이 필요합니다. 이 경우 그 함수는 시그모이드 함수입니다.
선형 회귀에는 임계값이 없습니다. 로지스틱 회귀에서는 각 인스턴스의 클래스를 적절하게 결정하기 위해 임계값이 필요합니다.
선형 회귀의 경우 종속 변수는 본질적으로 연속적이어야 합니다. 범주형이고 예측에서 연속 값을 기대하는 변수를 전달할 수 없음을 의미합니다. 로지스틱 회귀의 경우 종속 변수는 범주형이어야 합니다. 즉, 카테고리가 서로 달라야 합니다(2개 이하).
이 알고리즘의 목표는 훈련 데이터 포인트를 통해 가장 잘 맞는 라인을 찾는 것입니다. 따라서 우리가 그리는 결과 직선은 적합이 위도 아래도 아닌 경우 거의 모든 훈련 지점에 닿아야 합니다. 로지스틱 회귀 곡선의 계수를 변경하면 전체 플롯의 모양이 변경됩니다.
값을 예측하기 위해 선형 회귀 알고리즘은 기본적인 가정을 합니다. 이 알고리즘에 전달되는 값은 표준 정규 분포를 따르거나 가우스 분포에 따라 분포된다고 가정합니다. 로지스틱 회귀 알고리즘은 또한 시그모이드 함수로 전달되는 데이터의 분포를 가정합니다. 데이터가 이항 분포를 따른다고 가정합니다.

더 알고 싶으십니까?

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

로지스틱 회귀 사용의 단점은 무엇입니까?

로지스틱 회귀 모델은 하나 이상의 기존 독립 변수 간의 연결을 조사하여 종속 데이터 변수를 예상합니다. 분류 작업에 일반적으로 사용되는 로지스틱 회귀는 많은 장점이 있지만 몇 가지 단점도 있습니다. 고차원 데이터셋으로 작업할 때 모델의 과적합이 발생하여 부정확한 결론이 나올 수 있습니다. 로지스틱 회귀를 사용할 때 데이터 준비는 시간이 많이 걸리는 절차이므로 데이터 유지 관리도 어려워집니다. 로지스틱 회귀의 주요 단점 중 하나는 비선형 문제를 처리할 수 없다는 것입니다.

다항 로지스틱 회귀는 무엇을 의미합니까?

다항 로지스틱 회귀는 2개 이상의 종속 또는 결과 변수를 처리할 수 있는 이진 로지스틱 회귀 확장입니다. 하나가 아닌 많은 가능한 결과가 있다는 점을 제외하면 로지스틱 회귀와 유사합니다. 다중 클래스 분류 기능을 갖춘 기존의 지도 머신 러닝 접근 방식입니다. 다항 로지스틱 모델에는 다양한 가정이 포함되며, 그 중 하나는 데이터가 개별적인 것으로 생각된다는 것인데, 이는 각 독립 변수가 각 인스턴스에 대해 단일 값을 갖는다는 것을 의미합니다. 다항 로지스틱 모델은 또한 주어진 시나리오에서 종속 변수가 독립 변수로부터 정확하게 예측될 수 없다고 가정합니다.

선형 회귀를 사용하여 실제 문제를 해결하는 방법은 무엇입니까?

선형 회귀는 다양한 실제 상황 및 부문에서 널리 사용됩니다. 기업은 일반적으로 광고, 지출 및 이익 간의 관계를 이해하기 위해 선형 회귀를 사용합니다. 의료 연구자들은 약물 투여량과 환자 혈압 간의 연관성을 조사하기 위해 선형 회귀를 자주 사용합니다. 농업 과학자들은 비료와 물이 작물 수확량에 미치는 영향을 평가하기 위해 선형 회귀를 자주 사용합니다. 따라서 선형 회귀의 사용은 실생활 문제를 해결하는 데 다양합니다.