머신러닝의 5가지 분류 알고리즘 유형 [2022]

게시 됨: 2021-01-02

목차

소개

머신 러닝은 인공 지능에서 가장 중요한 주제 중 하나입니다. 레이블 및 레이블이 지정되지 않은 데이터 분석 또는 데이터 예측과 관련될 수 있는 지도 및 비지도 학습으로 더 나뉩니다. 지도 학습에는 회귀 및 분류라는 두 가지 유형의 비즈니스 문제가 더 있습니다.

분류는 레이블이 지정된 데이터를 입력으로 받고 출력을 클래스로 예측해야 하는 기계 학습 알고리즘입니다. 두 개의 클래스가 있는 경우 이진 분류라고 합니다. 두 개 이상의 클래스가 있는 경우 다중 클래스 분류라고 합니다. 실제 시나리오에서는 두 가지 유형의 분류를 모두 보는 경향이 있습니다.

이 기사에서 우리는 장단점과 함께 몇 가지 유형의 분류 알고리즘을 조사할 것입니다. 사용할 수 있는 분류 알고리즘은 매우 많지만 아래 5가지 알고리즘에 중점을 두겠습니다.

  1. 로지스틱 회귀
  2. K 가장 가까운 이웃
  3. 의사결정나무
  4. 랜덤 포레스트
  5. 서포트 벡터 머신

1. 로지스틱 회귀

이름이 회귀를 암시하지만 분류 알고리즘입니다. 로지스틱 회귀는 두 개 이상의 클래스가 있는 변수(TARGET)로 측정된 결과를 결정하는 하나 이상의 독립 변수 또는 특성이 있는 데이터를 분류하는 통계적 방법입니다. 주요 목표는 대상 변수와 독립 변수 간의 관계를 설명하는 가장 적합한 모델을 찾는 것입니다.

장점

1) 어떤 가정도 하지 않고 분류가 빠르기 때문에 구현, 해석 및 훈련이 효율적입니다.

2) 다중 클래스 분류에 사용할 수 있습니다.

3) 과적합이 덜 발생하지만 고차원 데이터셋에서는 과적합이 발생합니다.

단점

1) 관측치가 특징보다 작을 때 과적합.

2) 이산 함수에서만 작동합니다.

3) 비선형 문제는 풀 수 없습니다.

4) 복잡한 패턴을 배우기가 어렵고 일반적으로 신경망이 이를 능가합니다.

2. K 가장 가까운 이웃

KNN(K-Nearest Neighbors) 알고리즘은 '특징 유사성' 또는 '최근접 이웃' 기술을 사용하여 새 데이터 포인트가 속하는 클러스터를 예측합니다. 다음은 이 알고리즘의 작동을 더 잘 이해할 수 있는 몇 가지 단계입니다.

1단계 - 머신 러닝에서 알고리즘을 구현하려면 모델링할 준비가 된 정리된 데이터 세트가 필요합니다. 훈련 및 테스트 데이터 세트로 분할된 정리된 데이터 세트가 이미 있다고 가정해 보겠습니다.

2단계 - 데이터 세트가 이미 준비되어 있으므로 알고리즘을 구현하기 위해 고려해야 할 가장 가까운 데이터 포인트의 수를 알려주는 K(정수) 값을 선택해야 합니다. 우리는 기사의 후반 단계에서 k 값을 결정하는 방법을 알 수 있습니다.

3단계 - 이 단계는 반복적이며 데이터 세트의 각 데이터 포인트에 적용해야 합니다.

  1. 거리 메트릭 중 하나를 사용하여 테스트 데이터와 훈련 데이터의 각 행 사이의 거리를 계산합니다.
  2. 유클리드 거리
  3. 맨해튼 거리
  4. 민코프스키 거리
  5. 해밍 거리.

많은 데이터 과학자들은 유클리드 거리를 사용하는 경향이 있지만 이 기사의 후반부에서 각 거리의 중요성을 알 수 있습니다.

위 단계에서 사용한 거리 측정법을 기반으로 데이터를 정렬해야 합니다.

변환된 정렬 데이터에서 상위 K개 행을 선택합니다.

그런 다음 이러한 행의 가장 빈번한 클래스를 기반으로 테스트 포인트에 클래스를 할당합니다.

4단계 – 종료

장점

  1. 사용, 이해 및 해석이 쉽습니다.
  2. 빠른 계산 시간.
  3. 데이터에 대한 가정이 없습니다.
  4. 예측의 높은 정확도.
  5. 다목적 – 분류 및 회귀 비즈니스 문제 모두에 사용할 수 있습니다.
  6. 다중 클래스 문제에도 사용할 수 있습니다.
  7. Hyperparameter Tuning 단계에서 조정할 Hyper 매개변수는 단 하나뿐입니다.

단점

  1. 알고리즘이 모든 훈련 데이터를 저장하므로 계산 비용이 많이 들고 높은 메모리가 필요합니다.
  2. 변수가 증가하면 알고리즘이 느려집니다.
  3. 관련 없는 기능에 매우 민감합니다.
  4. 차원의 저주.
  5. K의 최적 값을 선택합니다.
  6. 클래스 불균형 데이터 세트는 문제를 일으킬 것입니다.
  7. 데이터에 누락된 값도 문제를 일으킵니다.

읽기: 기계 학습 프로젝트 아이디어

3. 의사결정 트리

의사 결정 트리는 숫자 및 범주 데이터를 모두 처리할 수 있으므로 분류 및 회귀 모두에 사용할 수 있습니다. 트리가 개발됨에 따라 데이터 세트를 점점 더 작은 하위 집합 또는 노드로 나눕니다. 결정 트리에는 결정 노드가 있는 출력과 결정 노드에 두 개 이상의 분기가 있는 반면 리프 노드는 결정을 나타냅니다. 최상의 예측 변수에 해당하는 최상위 노드를 루트 노드라고 합니다.

장점

  1. 이해하기 쉬운
  2. 쉬운 시각화
  3. 적은 데이터 해석
  4. 숫자 및 범주 데이터를 모두 처리합니다.

단점

  1. 때로는 잘 일반화하지 않습니다
  2. 입력 데이터의 변화에 ​​불안정

4. 랜덤 포레스트

랜덤 포레스트는 분류 및 회귀에 사용할 수 있는 앙상블 학습 방법입니다. 여러 결정 트리를 구성하여 작동하고 분류 문제에서 회귀 또는 과반수 투표에서 모든 결정 트리의 평균을 취하여 결과를 출력합니다. 이름 자체에서 나무 그룹을 숲이라고 함을 알 수 있습니다.

장점

  1. 대규모 데이터세트를 처리할 수 있습니다.
  2. 변수의 중요성을 출력합니다.
  3. 누락된 값을 처리할 수 있습니다.

단점

  1. 블랙박스 알고리즘입니다.
  2. 느린 실시간 예측 및 복잡한 알고리즘.

5. 벡터 머신 지원

서포트 벡터 머신은 가능한 한 명확한 간격이나 선에 의해 범주로 분리된 공간의 점으로 데이터 세트를 나타냅니다. 새 데이터 요소는 이제 동일한 공간에 매핑되고 해당 요소가 속하는 선의 측면 또는 분리를 기반으로 범주에 속하도록 분류됩니다.

장점

  1. 고차원 공간에서 가장 잘 작동합니다.
  2. 결정 기능에서 훈련 데이터 포인트의 하위 집합을 사용하여 메모리 효율적인 알고리즘으로 만듭니다.

단점

  1. 확률 추정치를 제공하지 않습니다.
  2. 교차 검증을 사용하여 확률 추정치를 계산할 수 있지만 시간이 많이 걸립니다.

더 읽어보기: 기계 학습 경력

결론

이 기사에서 우리는 5가지 분류 알고리즘, 간략한 정의, 장단점에 대해 논의했습니다. 이것들은 우리가 다룬 몇 가지 알고리즘에 불과하지만 Naive Bayes, Neural Networks, Ordered Logistic Regression과 같은 더 가치 있는 알고리즘이 있습니다. 어떤 알고리즘이 어떤 문제에 대해 잘 작동하는지 알 수 없으므로 모범 사례는 몇 가지를 시도하고 평가 메트릭을 기반으로 최종 모델을 선택하는 것입니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

로지스틱 회귀를 사용하는 주된 목적은 무엇입니까?

로지스틱 회귀는 주로 통계적 확률에 사용됩니다. 주어진 데이터에 존재하는 종속변수와 독립변수 사이의 관계를 이해하기 위해 로지스틱 회귀 방정식을 사용합니다. 이는 개별 이벤트 확률을 추정하여 수행됩니다. 로지스틱 회귀 모델은 선형 회귀 모델과 매우 유사하지만 데이터에 제공된 종속 변수가 이분법적일 때 사용하는 것이 좋습니다.

SVM은 로지스틱 회귀와 어떻게 다릅니까?

SVM은 로지스틱 회귀 모델보다 정확도가 높지만 사용이 복잡하고 사용자 친화적이지 않습니다. 데이터 양이 많은 경우 SVM을 사용하는 것은 바람직하지 않습니다. SVM은 회귀 및 분류 문제를 모두 해결하는 데 사용되지만 로지스틱 회귀는 분류 문제만 잘 해결합니다. SVM과 달리 과적합은 로지스틱 회귀를 사용할 때 흔히 발생합니다. 또한 로지스틱 회귀는 지원 벡터 머신과 비교할 때 이상값에 더 취약합니다.

회귀 트리는 의사 결정 트리의 유형입니까?

예, 회귀 트리는 기본적으로 회귀 작업에 사용되는 의사 결정 트리입니다. 회귀 모델은 초기 주어진 데이터 세트의 분할에 의해 실제로 발생한 종속 변수와 독립 변수 간의 관계를 이해하는 데 사용됩니다. 회귀 트리는 의사 결정 트리가 연속 대상 변수로 구성된 경우에만 사용할 수 있습니다.