의사 결정 트리 알고리즘 가이드: 애플리케이션, 장단점 및 예

게시 됨: 2020-12-10

다양한 종류의 기계 학습 알고리즘이 있으며 각각 고유한 응용 프로그램이 있습니다. 이 기사에서는 가장 인기 있고 유용한 ML 알고리즘 중 하나인 의사결정 트리 알고리즘을 살펴보겠습니다. 사용법에 익숙해지는 데 도움이 되도록 R의 의사결정 트리의 예를 논의했습니다. 시작하자.

의사결정나무 알고리즘이란?

의사 결정 트리는 루트 노드와 리프 노드가 있는 일종의 지도 머신 러닝 알고리즘입니다. 모든 노드는 기능을 나타내며 노드 간의 링크는 결정을 보여줍니다. 모든 잎은 결과를 나타냅니다.

야채를 사러 시장에 가고 싶다고 가정해 봅시다. 두 가지 선택이 있습니다. 가거나 하지 않습니다. 가지 않으면 야채를 얻을 수 없지만 간다면 시장에 가야 하므로 다른 섹션을 선택하게 됩니다. 의사 결정 트리는 다음과 같이 작동합니다.

의사결정 트리 애플리케이션

다음은 의사 결정 트리의 몇 가지 응용 프로그램입니다.

마케팅:

기업은 의사결정 트리를 사용하여 경쟁업체의 제품 및 서비스 성능을 관찰함으로써 판촉 캠페인의 정확성을 높일 수 있습니다. 의사 결정 트리는 잠재고객 세분화에 도움이 되며 전환율이 더 높고 타겟이 명확한 광고를 생성하는 기업을 지원할 수 있습니다.

고객 유지:

기업은 그들의 행동을 분석하고 그러한 행동에 적합한 새로운 제안이나 제품을 출시함으로써 고객 유지를 위해 의사 결정 트리를 사용합니다. 기업은 의사결정 트리 모델을 사용하여 고객의 만족도 수준도 파악할 수 있습니다.

질병 및 질병 진단:

의사 결정 트리는 의사와 의료 전문가가 당뇨병이나 치매와 같은 심각한(또는 예방 가능한) 상태에 걸릴 위험이 더 높은 환자를 식별하는 데 도움이 될 수 있습니다. 특정 변수에 따라 가능성을 좁히는 의사 결정 트리의 기능은 이러한 경우에 매우 유용합니다.

사기 탐지:

기업은 의사 결정 트리를 사용하여 사기 행위를 사전에 식별함으로써 사기를 예방할 수 있습니다. 시간과 비용을 포함한 많은 자원을 절약할 수 있습니다.

의사결정나무의 장점과 단점

의사 결정 트리 알고리즘의 장점:

다음은 R에서 의사 결정 트리를 사용하는 주요 이점입니다.

결과를 이해하는 것은 다른 모델보다 쉽습니다. 기술 팀에서 의사 결정 트리 모델을 프로그래밍하도록 하면 더 빠르게 작동하고 새 인스턴스에 적용할 수 있습니다. 그 계산은 질적 또는 양적 모델인 인스턴스에 따라 포함 테스트를 합니다.
비모수적입니다. 우리 문제에 존재하는 독립 변수는 이러한 이유로 인해 특정 확률 분포를 따를 필요가 없습니다. 공선 변수를 가질 수 있습니다. 그들이 차별적이든 아니든, 결정 트리는 해당 변수를 선택할 필요가 없기 때문에 결정 트리에 영향을 미치지 않습니다.
그들은 결측값으로 작업할 수 있습니다. CHAID는 모든 누락된 값을 범주에 넣습니다. 이 범주는 다른 값과 병합하거나 다른 값과 별도로 유지할 수 있습니다.
극단적인 개별 값(예: 이상값)은 의사 결정 트리에 큰 영향을 미치지 않습니다. 전체 분류에 영향을 미치지 않도록 작은 노드로 격리할 수 있습니다.
의사 결정 과정을 시각적으로 잘 보여줍니다. 의사 결정 트리의 모든 분기는 의사 결정에 영향을 줄 수 있는 요소를 나타내며 더 큰 그림을 볼 수 있습니다. 의사 결정 트리를 사용하여 팀의 커뮤니케이션을 개선할 수 있습니다.
CART 트리는 정성적, 연속적 및 이산적 변수를 포함한 모든 변수 유형을 직접 처리할 수 있습니다.

의사 결정 트리 알고리즘의 단점

모든 독립 변수를 동시에 분석하지는 않습니다. 대신 순차적으로 평가합니다. 이 때문에 트리는 어떤 수준에서도 노드 분할을 수정하지 않으며, 이는 트리 선택에 편향을 일으킬 수 있습니다.
단일 변수를 수정해도 상위에 가까우면 전체 트리에 영향을 줄 수 있습니다. 이 문제를 해결할 수 있는 방법이 있습니다. 예를 들어, 여러 샘플에서 트리를 구성하고 평균(또는 투표)에 따라 집계할 수 있습니다. 이것을 리샘플링이라고 합니다. 그러나 모델을 더 복잡하게 만들어 가독성을 떨어뜨리기 때문에 또 다른 문제가 발생합니다. 따라서 리샘플링을 통해 결정 트리의 최상의 품질을 제거할 수 있습니다. 왜 문제입니까? 하나의 변수가 특정 그룹의 모든 특성을 가지고 있지만 나무가 분할되는 특성도 가지고 있다고 가정합니다. 이 경우, 트리는 중요한 품질을 가지고 있기 때문에 잘못된 클래스에 넣을 것입니다.
의사 결정 트리에서 특정 수준의 모든 노드는 이전 수준의 노드에 종속됩니다. 즉, 레벨 'n +1'에서 노드를 정의하는 방법은 전적으로 레벨 'n'에서 노드에 대한 정의에 따라 다릅니다. 수준 'n'의 정의가 잘못된 경우 모든 후속 수준과 해당 수준에 있는 노드도 잘못됩니다.

학습: 기계 학습의 선형 회귀

R의 의사 결정 트리(예제)

R에서 의사 결정 트리를 구축하려면 rpart가 필요합니다. 우리는 분류를 위해 rpart를 사용합니다. R에서는 의사결정을 생성하는 재귀적 분할 알고리즘을 기반으로 의사결정 트리를 구축하고 이에 따라 회귀 트리도 생성합니다. 두 단계가 있습니다.

먼저, 가능한 최선의 방법으로 데이터를 두 개의 개별 그룹으로 분할하는 변수를 식별합니다.
둘째, 해당 그룹이 특정 크기에 도달하거나 해당 하위 그룹을 더 이상 개선할 수 없을 때까지 모든 하위 그룹에 대해 이전 단계의 프로세스를 반복합니다.

예를 들어 다음 데이터가 있습니다.

위의 데이터에는 자전거의 시간과 가속도가 있습니다. 시간에 따른 가속도를 예측해야 합니다. 우리는 다음을 수행하여 그렇게 할 것입니다:

1라이브러리(rpart)

그런 다음 데이터를 로드합니다.

1데이터(자전거)

이제 산점도를 생성합니다.

1plot(가속~시간, 데이터=자전거)

일단, 우리는 그것을 했고, 우리는 트리를 만들 것입니다:

1mct <- rpart(가속 ~ 시간, 데이터=자전거)

마지막 단계는 그래프를 그리는 것입니다.

1플롯(mct)

읽어보기: 완벽한 의사 결정 트리를 만드는 방법은 무엇입니까?

마지막 생각들

이제 R에서 완벽하게 작동하는 의사 결정 트리 모델이 있습니다. 블로그에서 더 유사한 자습서를 찾을 수 있습니다.

의사 결정 트리, 기계 학습에 대해 자세히 알아보려면 작업 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제를 제공하는 IIIT-B & upGrad의 기계 학습 및 AI PG 디플로마를 확인하십시오. , IIIT-B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

의사 결정 트리 알고리즘에서 가장 중요한 기능은 무엇입니까?

의사 결정 트리 알고리즘은 결정력과 위험 분석을 위한 귀중한 도구이며 종종 그래프나 규칙 목록으로 표현됩니다. 의사결정나무 알고리즘의 사용의 단순성은 가장 필수적인 특성 중 하나입니다. 시각적이기 때문에 이해하기 쉽고 관련성이 있습니다. 사용자가 의사 결정 트리 알고리즘의 구성에 익숙하지 않더라도 성공적으로 적용할 수 있습니다. 의사 결정 트리 알고리즘은 이전 경험을 기반으로 미래 이벤트를 예측하고 합리적인 의사 결정을 돕기 위해 가장 일반적으로 사용됩니다. 의사결정 트리 알고리즘의 또 다른 중요한 분야는 데이터 마이닝으로, 아래에서 자세히 설명하는 것처럼 의사결정 트리가 분류 및 모델링 도구로 활용됩니다.

의사 결정 트리 알고리즘은 얼마나 중요합니까?

의사 결정 트리 알고리즘은 의사 결정의 모든 생각할 수 있는 결과를 강제로 분석하고 결론에 이르는 각 경로를 추적한다는 중요한 이점이 있습니다. 각 분기에 따른 영향에 대한 자세한 연구를 생성하고 더 많은 조사가 필요한 결정 노드를 나타냅니다. 또한 모든 난이도, 결정 경로 및 결과는 결정 트리 알고리즘에 의해 고유한 값이 할당됩니다. 이 방법은 중요한 결정 경로를 강조하고, 불확실성을 낮추고, 모호성을 제거하고, 대안적 행동 과정의 재정적 의미를 명확히 합니다. 사실 정보를 사용할 수 없는 경우 사용자는 의사 결정 트리 알고리즘을 사용하여 상황에 대한 확률을 사용하여 간단한 비교를 위해 옵션을 서로 관점에서 볼 수 있습니다.

결정 트리 알고리즘은 어떤 기술을 기반으로 합니까?

결정 트리 알고리즘은 분류 및 회귀 문제에 사용할 수 있는 결정 트리 기술을 기반으로 합니다. 이름은 연속적인 기능 기반 분할로 인한 예측을 표시하기 위해 순서도와 같은 트리 구조를 사용함을 의미합니다. 루트 노드에서 시작하여 리프 결정으로 끝납니다. 결정 트리는 일반적으로 결정 노드를 나타내는 사각형, 일반적으로 원으로 표시되는 기회 노드 및 끝 노드를 상징하는 삼각형의 세 가지 종류의 노드로 구성됩니다.