분류 알고리즘 소개: 개념 및 다양한 유형

게시 됨: 2020-04-13

분류 알고리즘은 데이터를 다른 클래스로 나누는 데 도움이 됩니다. 패킹하면서 정렬하고 싶을 때와 마찬가지로 분류 알고리즘은 데이터를 분류하는 데 도움이 됩니다. 이 기사에서는 분류 알고리즘이 무엇인지, 분류 알고리즘의 유형, 이 주제의 몇 가지 기본 개념 및 작동 방식을 살펴보겠습니다.

분류은 무슨 뜻인가요?

대상 클래스를 예측하기 위해 훈련 데이터 세트를 사용하여 경계 조건을 얻을 때 이 프로세스 분류를 호출합니다. 달성할 수 있는 여러 유형의 대상 클래스가 있습니다. 예를 들어, 보유한 고객 데이터에 따라 고객이 특정 제품을 구매할지 여부를 예측한다고 가정합니다. 이 경우 대상 클래스는 '예' 또는 '아니오'입니다.

반면에 야채를 무게, 크기 또는 색상에 따라 분류할 수 있습니다. 이 시나리오에서 사용 가능한 대상 클래스는 시금치, 토마토, 양파, 감자 및 양배추일 수 있습니다. 대상 클래스가 여성 및 남성인 성별 분류도 수행할 수 있습니다.

세 번째 예를 고려하여 분류 알고리즘이 어떻게 작동하는지 조금 이해합시다. 이 예를 위한 것이지만 머리카락 길이를 기능 매개변수로 유지할 수 있습니다. 우리는 분류 알고리즘을 사용하여 모델을 훈련하고 주어진 특성 매개변수, 즉 머리카락 길이를 통해 여성과 남성 성별을 구별하기 위한 경계 조건을 결정하도록 할 수 있습니다.

분류의 기본 개념

분류 알고리즘에 대해 더 자세히 논의하기 전에 몇 가지 정의에 익숙해야 합니다. 이렇게 하면 나중에 혼동을 피할 수 있습니다.

특징

그것은 우리가 한 번에 관찰하는 특정 현상의 개별 측정 가능한 속성입니다.

분류기

분류기는 모델의 입력 데이터를 특정 범주에 매핑하는 알고리즘입니다.

분류 모델

분류 모델은 훈련 중에 모델에 제공하는 입력 값을 결론지어야 합니다. 이 모델은 우리가 제공하는 새 데이터의 범주(클래스 레이블)를 예측합니다.

다중 레이블 분류

다중 레이블 분류는 각 샘플을 여러 클래스의 대상 레이블 세트에 매핑하는 경우입니다. 예를 들어 책가방에는 책, 도시락, 펜이 동시에 들어 있을 수 있습니다.

다중 클래스 분류

다중 클래스 분류는 모든 샘플을 단일 대상 레이블에만 할당하는 경우입니다. 2개 이상의 클래스가 있을 때 발생합니다. 예를 들어, 자동차는 움직이거나 정지할 수 있지만 동시에 둘 다 있을 수는 없습니다.

이진 분류

이진 분류는 가능한 클래스가 두 개뿐인 경우입니다. 예를 들어, 사람의 성별은 남성 또는 여성일 수 있습니다.

분류 알고리즘의 유형

다음은 모든 유형의 분류 알고리즘입니다.

커널 추정

(K-가장 가까운 이웃)

선형 분류기

(로지스틱 회귀, Fisher의 선형 판별식 및 Naive Bayes 분류기)

2차 분류기
신경망
벡터 양자화 학습
서포트 벡터 머신

(최소 제곱은 벡터 머신을 지원합니다)

이제 몇 가지 필수 유형의 분류 알고리즘에 대해 논의해 보겠습니다.

자세히 알아보기: 사용 사례가 있는 기계 학습 알고리즘 유형

K-최근접 이웃

KNN이라고도 하는 K-최근접 이웃은 회귀 및 분류 문제를 해결하는 인기 있는 알고리즘입니다. k-이웃의 투표에 따라 새로운 케이스를 분류합니다. 거리 함수를 사용하여 k-최근접 이웃을 결정합니다. 가장 인기 있는 거리 함수는 유클리드 함수이지만 맨해튼 및 해밍과 같은 다른 옵션도 있습니다.

KNN을 이해하기 위해 실제 예를 볼 수 있습니다. 정보가 별로 없는 사람과 친구가 되고 싶다고 가정해 봅시다. 그들을 더 잘 알기 위해서는 먼저 그들의 친구 및 동료와 이야기하여 그들이 어떤 사람인지에 대한 아이디어를 얻어야 합니다. 이것이 KNN 알고리즘이 작동하는 방식입니다.

k-최근접 이웃 알고리즘을 사용하는 동안 더 높은 범위의 변수가 편향을 일으킬 수 있으므로 변수를 정규화해야 합니다. 게다가, KNN 알고리즘은 계산적으로 상당히 비쌉니다.

의사결정나무

의사결정나무는 일련의 선택에 따라 가능한 결과를 예측하는 데 도움이 됩니다. 지도 학습 알고리즘이며 연속 및 범주 종속 변수와 함께 다양한 기능을 사용합니다.

예를 들어 과일을 사러 나가려고 하는데 날씨가 흐리다고 가정해 보겠습니다. 이제 두 가지 선택이 있습니다. 갈 수도 있고 가지 않을 수도 있습니다. 가면 비가 와서 빈손으로 돌아와야 할지도 모릅니다. 반면에 비가 오지 않으면 필요한 과일을 살 수 있습니다. 여러 변수를 포함하는 간단한 예지만 아이디어를 얻었습니다.

읽어보기: R의 의사결정나무

로지스틱 회귀

로지스틱 회귀는 회귀 알고리즘이 아닙니다. 로지스틱 회귀는 특정 독립 변수 세트에 따라 이산 값을 추정합니다. 즉, 로짓 함수를 사용하여 이벤트의 가능성을 예측합니다. 그래서 로짓 회귀라는 이름도 있습니다.

로지스틱 회귀는 분류를 위해 설계되었기 때문에 전문가들 사이에서 인기 있는 선택입니다. 또한 다양한 독립변수가 가능한 결과에 미치는 영향을 이해하는 데 가장 적합한 알고리즘입니다. 단점은 예측 가능한 이진 변수에서만 작동하고 데이터에 누락된 값이 없다고 가정한다는 것입니다.

서포트 벡터 머신

서포트 벡터 머신에서 모든 기능의 값은 특정 좌표의 값이고 모든 항목은 n차원 공간의 한 점입니다. 여기서 'n'은 보유한 기능의 수를 나타냅니다.

머리 길이와 키라는 두 가지 기능이 있다고 가정해 보겠습니다. 이 경우에는 먼저 이러한 변수를 2차원 공간에 플롯하고 모든 점에는 두 개의 좌표가 있습니다. 우리는 이러한 좌표를 지원 벡터라고 부릅니다. 이것이 이 알고리즘을 Support Vector Machine이라고 부르는 이유입니다.

이러한 점을 그린 후 데이터를 뚜렷하게 분류된 두 그룹으로 나누는 선을 찾을 수 있습니다. 이 줄은 분류기이며 최종 결과에서 테스트 데이터가 있는 쪽에 따라 클래스를 만듭니다.

결론

이 블로그에서는 분류 알고리즘을 최대한 포괄적으로 설명하려고 노력했습니다. 이 주제에 대해 더 알고 싶다면 이런 종류의 귀중한 기사로 가득한 블로그를 방문하는 것이 좋습니다.

기계 학습 과정 카탈로그로 이동하여 이 주제에 대해 자세히 알아볼 수도 있습니다. 당신이 뭔가 유용한 것을 찾을 것이라고 확신합니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

미래의 직업을 위한 준비

기계 학습 및 인공 지능 PG 디플로마

자세히 알아보기 @ UPGRAD