기계 학습의 회귀 대 분류: 회귀와 분류의 차이점

게시 됨: 2020-11-12

소개

데이터 과학 문제를 해결할 때 올바른 접근 방식을 갖는 것은 매우 중요하며 종종 혼동을 일으키는 것과 올바른 솔루션을 찾는 것의 차이를 의미할 수 있습니다. 처음에 데이터 과학자들은 종종 두 가지를 혼동하는 경향이 있습니다. 올바른 접근 방식으로 문제를 공격하는 데 중요한 작은 기술적 세부 사항을 파악할 수 없습니다.

경험이 풍부하고 노련한 데이터 과학자라 할지라도 차이점은 쉽게 혼동될 수 있으며 올바른 접근 방식을 적용하기가 어렵습니다. 이 담론에서 우리는 두 가지 중요한 데이터 과학 알고리즘인 분류와 회귀의 차이점과 유사점에 대해 더 깊이 알아볼 것입니다.

이 두 접근 방식 모두 비즈니스 문제를 해결하는 데 있어 데이터 과학자의 무기고에서 필수적인 도구여야 합니다. 따라서 올바른 모델을 선택하고 적절한 미세 조정을 수행하며 비즈니스를 향상시킬 올바른 솔루션을 배포하려면 중요한 이해가 필수적입니다.

읽기: 기계 학습 프로젝트 아이디어

회귀 대 분류

첫째, 중요한 유사성 - 회귀 및 분류 모두 지도 머신 러닝 접근 방식으로 분류됩니다. 지도 머신 러닝 접근 방식이란 무엇입니까? 예측을 위해 실제 데이터 세트(훈련 데이터 세트라고 함)를 사용하여 모델을 훈련하는 기계 학습 알고리즘 세트입니다.

모델을 훈련하는 데 사용되는 데이터는 레이블이 잘 지정되고 정리되어야 합니다. 모델은 훈련 데이터에서 독립 변수와 예측 변수 간의 관계를 학습합니다. 이는 모델이 데이터 내의 패턴을 스스로 식별하도록 요청하여 데이터 세트 내 고유의 패턴을 검사하여 매핑 기능을 찾는 비지도 머신 러닝 접근 방식과 대조됩니다.

지도 머신 러닝 접근 방식은 매핑 함수 y = f(x)를 해결하려고 시도합니다. 여기서 x는 입력 변수를 나타내고 y는 매핑 함수입니다. 매핑 기능을 해결하여 실제 데이터 세트로 빠르고 편리하게 전송할 수 있습니다.

분류 및 회귀 함수는 다른 모든 지도 머신 러닝 접근 방식과 마찬가지로 이 작업을 수행할 수 있습니다. 그러나 중요한 차이점과 회귀 접근 방식은 회귀에서 출력 변수 'y'가 숫자이고 연속적이며 (정수 또는 부동 소수점 값일 수 있음) 분류 알고리즘에서 출력 변수 'y'가 이산이고 범주형.

따라서 급여, 기대 수명, 이탈 확률과 같은 변수를 예측하는 경우 이러한 변수는 숫자이고 연속적입니다.

예를 들어 , 금융 기관이 채무 불이행 가능성을 측정하기 위해 대출 신청자를 프로파일링하는 데 관심이 있다고 가정합니다. 데이터 과학자는 두 가지 주요 방법으로 문제에 접근할 수 있습니다. 각 대출 신청자에게 확률(0과 1 사이의 연속 부동 소수점 숫자 범위)을 할당하거나 단순히 이진 출력 집합을 제공합니다. PASS/FAIL에 해당합니다.

두 접근 방식 모두 신청자 신용 기록, 급여 정보, 인구 통계, 연령, 거시 경제 조건 등과 같은 동일한 입력 변수 집합을 사용합니다. 그러나 두 접근 방식의 차이점은 전자가 각 신청자에게 점수를 매기는 데 유용할 수 있다는 점입니다. 한 개인이 다른 개인에 비해 얼마나 더 가능성이 높은지와 같은 상대론적 계산을 수행합니다.

출력은 다른 분석에도 사용할 수 있습니다. 그러나 후자의 경우 알고리즘은 개별 프로필의 전체 데이터 집합을 예 또는 아니요로 분류하여 신용을 부여하는 것이 안전한지 판단하는 데 사용할 수 있습니다. yes 및 no 클래스 모두 하위 클래스 내에서 상당한 차이가 있을 수 있습니다.

그러나 여기에서 분류 접근 방식을 사용하면 각 하위 그룹 내의 변동을 파악하는 데 관심이 없습니다. 분류는 수신 이메일이 스팸인지 스팸이 아닌지 분류하는 것과 같은 다른 목적으로 사용될 수 있습니다.

반면에 날씨 예측(날씨가 연속 값의 범위를 가질 수 있음)은 일반적으로 회귀 접근 방식이 필요합니다. 대신 비가 올지 안 올지 예측하는 데만 관심이 있다면 동일한 날씨 데이터 세트를 분류 시스템에 더 적절하게 넣을 수 있습니다. 따라서 우리가 볼 수 있듯이 사용 사례에 따라 사용하기에 더 적합한 알고리즘이 결정됩니다.

회귀 알고리즘은 선형 회귀, 다변수 회귀, 지원 벡터 모델 및 회귀 트리 등으로 구성됩니다. 분류 접근 방식은 의사 결정 트리, Naive Bayes, Logistics Regression 등을 활용합니다.

이러한 접근 방식과 알고리즘의 차이점을 이해하면 비즈니스별 사용 사례에 적합한 것을 더 잘 선택하고 적용할 수 있으므로 올바른 솔루션에 신속하게 도달할 수 있습니다.

분류 및 회귀 알고리즘 유형

회귀 및 분류에 사용되는 이러한 각 알고리즘 유형을 심층적으로 이해해 보겠습니다.

선형 회귀 – 선형 회귀에서 두 변수 간의 관계는 직선의 최적선을 그려서 추정됩니다. 맞춤 강도, 분산, 표준 편차, r-제곱 값 등과 같이 플롯된 최적 선의 강도를 측정하는 데 필요한 다른 측정값이 있을 것입니다. 기계 학습의 회귀 모델에 대해 자세히 알아보세요.

다항식 회귀 – 다항식 회귀 모델에서 '여러' 입력 변수와 예측 변수 또는 '출력' 변수 간의 관계가 측정됩니다. 회귀 모델에 대해 자세히 알아보세요.

의사결정 트리 알고리즘 – 의사결정 트리 알고리즘에서 데이터 세트는 의사결정 트리의 도움으로 분류됩니다. 여기서 트리의 각 노드는 테스트 케이스이고 트리의 각 노드에서 발생하는 모든 분기는 가능한 값에 해당합니다. 속성의.

읽기: 완벽한 의사결정나무를 만드는 방법?

랜덤 포레스트 알고리즘 - 랜덤 포레스트는 이름에서 알 수 있듯이 여러 의사 결정 트리 알고리즘을 추가하여 구축됩니다. 그런 다음 이 모델은 다양한 의사 결정 트리의 출력을 집계하고 개별 의사 결정 트리의 과반수 투표에 의해 발생하는 최종 예측을 제공합니다.

의사결정 트리에서 제공하는 최종 출력은 개별 의사결정 트리에서 제공하는 것보다 더 정확합니다. 'Random Forests는 종종 과적합 문제로 고통받는 경향이 있지만 교차 검증 및 기타 방법으로 미세 조정할 수 있습니다.

K 최근접이웃 – K 최근접이웃은 유사한 것들이 서로 근접하게 유지된다는 원칙에 따라 작동하는 강력한 분류 알고리즘입니다. 새 변수가 예측 알고리즘에 입력되면 데이터 세트와의 근접성을 기반으로 그룹에 할당을 시도합니다. KNN에 대해 자세히 알아보세요.

결론

데이터 과학자로서 다양한 분류 및 회귀 접근 방식에 대한 기본적이고 필수적인 이해가 필요합니다. 관련된 기술은 데이터 과학자로서 올바른 도구 세트를 적용하고 이점을 얻을 적절한 솔루션을 찾는 데 도움이 됩니다. 당신의 사업.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

AI 주도 기술 혁명 주도

기계 학습 및 인공 지능 PG 디플로마

더 알아보기