의사 결정 트리 분류: 알아야 할 모든 것

게시 됨: 2020-05-29

목차

소개

많은 비유가 자연에서 우리의 실생활로 옮겨질 수 있습니다. 나무는 그 중 가장 영향력 있는 것 중 하나입니다. 나무는 기계 학습의 상당한 영역에 영향을 미쳤습니다. 그들은 필수 분류와 회귀를 모두 다룹니다. 의사결정을 분석할 때 의사 결정 과정을 나타내기 위해 의사결정 트리 분류기 를 사용할 수 있습니다.

따라서 기본적으로 의사 결정 트리는 특정 매개변수를 염두에 두고 데이터를 지속적으로 분할하여 데이터 처리가 발생하는 지도 머신 러닝의 일부입니다.

의사결정나무는 무엇으로 구성되어 있습니까?

질문에 대한 대답은 간단합니다. 의사 결정 트리는 세 가지 필수 요소로 구성되며 각 요소에 대한 비유는 실제 트리에 적용할 수 있습니다. 세 가지 모두 아래에 나열되어 있습니다.

  1. 노드: 값에 대한 테스트가 발생하는 장소입니다. 노드에서 특정 속성의 값이 전달되고 결정을 내리기 위해 값에 대해 확인 및 테스트됩니다.
  2. Edges/Branches: 이 부분은 테스트 결과의 결과에 해당합니다. Edges/Branches는 두 개의 서로 다른 노드 또는 잎을 연결하는 역할도 합니다.
  3. 리프 노드: 일반적으로 터미널에서 발견되는 노드입니다. 리프 노드는 결과 예측을 담당합니다.

의사결정나무 분류

결정 트리는 크게 분류 트리와 회귀 트리의 두 가지 범주로 분류할 수 있습니다.

1. 분류 트리

분류 트리는 "예" 또는 "아니오" 질문에 답하고 이 정보를 사용하여 결정을 내리는 것을 기반으로 하는 이러한 유형의 결정 트리입니다. 따라서 관련 질문을 많이 하고 그에 대한 답을 바탕으로 실행 가능한 솔루션을 도출하여 사람이 적합한지 부적합한지를 판단하는 트리는 일종의 분류 트리입니다.

이러한 유형의 트리는 일반적으로 이진 재귀 분할이라고 하는 프로세스를 사용하여 구성됩니다. 이진 재귀 분할 방법에는 데이터를 별도의 모듈이나 파티션으로 분할하는 것이 포함되며, 그런 다음 이러한 파티션은 의사 결정 트리 분류기 의 모든 분기에 추가로 연결됩니다 .

2. 회귀 트리

이제 회귀 유형의 결정 트리는 한 가지 측면에서 결정 트리의 분류 유형과 다릅니다. 두 트리에 제공된 데이터는 매우 다릅니다. 분류 트리는 신중한 데이터를 처리하는 반면 회귀 결정 트리는 연속 데이터 유형을 처리합니다. 회귀 트리의 좋은 예는 집값 또는 환자가 일반적으로 병원에 머무는 기간입니다.

자세히 알아보기: 기계 학습의 선형 회귀

의사 결정 트리는 어떻게 생성됩니까?

의사 결정 트리는 모델이 학습되어야 하는 데이터 집합을 사용하여 생성됩니다(의사결정 트리는 지도 머신 러닝의 일부임). 이 훈련 데이터 세트는 계속해서 더 작은 데이터 하위 집합으로 연결됩니다. 이 프로세스는 데이터를 분해하는 프로세스에서 나란히 증분 생성되는 연관 트리의 생성으로 보완됩니다. 머신이 학습을 마친 후 제공된 교육 데이터 세트를 기반으로 의사 결정 트리 생성이 종료되고 이 트리가 사용자에게 반환됩니다.

의사 결정 트리를 사용하는 이면의 중심 아이디어는 데이터를 두 개의 기본 영역, 즉 인구 밀도가 높은 영역(클러스터) 또는 비어 있는(또는 희소한) 영역인 영역으로 분리하는 것입니다.

의사 결정 트리 분류 는 분할의 기본 원칙에 따라 작동합니다. 일련의 테스트를 거친 후 트리에 입력된 새 예제가 구성되고 클래스 레이블이 부여되는 위치를 정복합니다. 분할 정복 알고리즘은 아래에서 자세히 설명합니다.

나누어 정복하라

결정 트리 분류기 는 분할 정복 알고리즘이라고도 알려진 재귀 분할로 알려진 경험적 방법을 사용하여 기반 및 구축 된다는 것이 분명합니다 . 데이터를 더 작은 집합으로 나누고 계속 그렇게 합니다. 각 하위 집합 내의 데이터가 동종이라고 결정될 때까지 또는 사용자가 다른 중지 기준을 정의한 경우 이 알고리즘이 중지됩니다.

의사 결정 트리 분류기 는 어떻게 작동합니까?

  1. 분할 정복 알고리즘은 결정 트리 분류기 를 만드는 데 사용됩니다 . 알고리즘을 사용함으로써 우리는 항상 트리의 루트에서 시작하고 최종 결정의 불확실성을 줄이기 위해 데이터 세트도 분할합니다.
  2. 반복적인 과정을 거치게 됩니다. 그래서 모든 노드에서 이 과정을 반복합니다. 이 과정은 원하는 순도의 노드가 없을 때까지 반복됩니다.
  3. 일반적으로 과적합을 피하기 위해 달성해야 할 순도 한계를 설정합니다. 이는 최종 결과가 100% 순수하지 않을 수 있음을 의미합니다.

분할 정복 알고리즘의 기본:

  1. 먼저 루트 노드에 대한 테스트를 선택하거나 선택합니다. 그런 다음 분기를 만드는 과정을 시작합니다. 분기는 정의된 시도의 가능한 각 결과를 염두에 두고 설계되었습니다.
  2. 다음은 데이터 인스턴스를 더 작은 하위 집합으로 나누는 것입니다. 각 분기에는 노드에 연결된 자체 스플라이스가 있습니다.
  3. 그런 다음 문제의 분기에 오는 인스턴스만 사용하여 각 분기에 대해 이 프로세스를 반복해야 합니다.
  4. 모든 인스턴스가 동일한 클래스에 속하는 경우 이 재귀 프로세스를 중지해야 합니다.

의사 결정 트리 분류 사용의 장점

  1. 건설에 막대한 자금이 필요하지 않습니다.
  2. 새롭거나 알려지지 않은 기록을 신속하게 분류하는 프로세스입니다.
  3. 특히 나무의 크기가 작은 경우 매우 쉽게 해석할 수 있습니다.
  4. 결정 트리 분류기 를 사용한 예측의 정확도는 다른 예측 또는 분류 방법과 비슷합니다.
  5. 또한 중요하지 않은 기능을 제외하는 기능도 있습니다. 관련 없는 기능을 제거하는 이 프로세스는 자동으로 수행됩니다.

읽어보기: 완벽한 의사 결정 트리를 만드는 방법은 무엇입니까?

의사 결정 트리 분류기 사용의 단점

  1. 이 경우 데이터 세트를 과적합하는 것은 매우 쉽습니다.
  2. 결정의 경계에는 제한이 있습니다. 속성을 포함하는 축과만 평행할 수 있습니다.
  3. 의사 결정 트리를 기반으로 하는 모델에는 많은 수의 수준이 있는 편향 분할이 있는 경우가 많습니다.
  4. 데이터 세트에 대한 작은 변경 사항은 결정을 제어하는 ​​논리에 상당한 영향을 미칠 수 있습니다.
  5. 라거 나무는 때때로 매우 반직관적이라고 느낄 수 있기 때문에 이해하기 어렵습니다.

더 읽어보기: 기계 학습의 의사 결정 트리

세계 최고의 대학에서 데이터 과학 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

결론

선형 솔루션으로 처리할 수 없는 문제에 직면할 때 의사 결정 트리가 유용합니다. 관찰 결과, 트리 기반 모델은 입력의 비선형성을 쉽게 매핑하고 당면한 문제를 효과적으로 제거할 수 있다는 점에 주목했습니다. 랜덤 포레스트 생성 및 그래디언트 부스팅과 같은 정교한 방법은 모두 의사 결정 트리 분류기 자체를 기반으로 합니다.

의사결정나무는 의생명공학, 천문학, 시스템 제어, 의약품, 물리학 등과 같은 실생활의 많은 영역에서 사용할 수 있는 강력한 도구입니다. 이는 의사결정나무 분류 를 기계 학습의 중요하고 필수적인 도구로 효과적으로 만듭니다.

의사결정나무는 과적합 경향이 있습니까?

의사 결정 트리는 복잡한 데이터를 더 단순한 형태로 조각화합니다. 의사 결정 트리 분류는 더 이상 나눌 수 없을 때까지 데이터를 나누려고 합니다. 그런 다음 가능한 모든 내용에 대한 명확한 차트가 생성되어 추가 분석에 도움이 됩니다. 수많은 스플라이스가 있는 광대한 트리는 우리에게 직선 경로를 제공하지만 데이터를 테스트할 때 문제를 일으킬 수도 있습니다. 이 과도한 스플라이싱은 과적합으로 이어지며 많은 분할로 인해 트리가 엄청나게 성장합니다. 이러한 경우 의사결정 트리의 예측 능력이 손상되어 불건전해집니다. 가지치기는 과도한 부분 집합이 제거되는 과적합을 처리하는 데 사용되는 기술입니다.

의사 결정 트리에 정규화가 필요합니까?

의사 결정 트리는 데이터의 분류 및 회귀에 사용되는 가장 일반적인 기계 학습 알고리즘입니다. 이 감독 메커니즘은 하위 집합당 데이터를 더 이상 나눌 수 없는 리프 노드에 도달할 때까지 다양한 그룹으로 분할합니다. 이 데이터는 제공된 속성에 따라 범주로 분할되므로 균등하게 분할됩니다. 정규화를 거친 데이터와 그렇지 않은 데이터 모두 동일한 수의 분할을 가짐을 전달합니다. 따라서 정규화는 의사 결정 기반 트리 모델의 전제 조건이 아닙니다.

의사 결정 트리를 연결하는 방법은 무엇입니까?

의사 결정 트리는 데이터를 분류하고 솔루션을 예측하는 신뢰할 수 있는 메커니즘입니다. 의사 결정 트리에서 연결하려면 정밀도가 필요합니다. 사소한 실수가 의사결정나무의 무결성을 손상시킬 수 있습니다. 재귀적 분할을 사용하여 의사결정 트리에서 스플라이싱이 발생합니다. 데이터 분할은 할당된 속성을 통해 데이터의 하위 집합을 만드는 것으로 시작됩니다. 데이터는 각 노드에서 결합된 데이터가 예측 솔루션에서 쓸모없는 것으로 간주될 때까지 반복적으로 재귀적으로 분할됩니다. 하위 집합은 대상 변수의 값과 유사할 수도 있습니다. 접합은 정확성을 위해 체계적이고 반복적이어야 합니다.