랜덤 포레스트 대 의사 결정 트리: 랜덤 포레스트와 의사 결정 트리의 차이점
게시 됨: 2020-12-30최근의 발전으로 여러 알고리즘이 성장했습니다. 이 새롭고 놀라운 알고리즘은 데이터에 불을 붙였습니다. 그들은 데이터를 처리하고 효과적인 의사 결정을 내리는 데 도움을 줍니다. 세상이 인터넷 난리를 치고 있기 때문입니다. 거의 모든 것이 인터넷에 있습니다. 이러한 데이터를 처리하려면 의사 결정과 해석을 위한 엄격한 알고리즘이 필요합니다. 이제 다양한 알고리즘 목록이 있는 상황에서 가장 적합한 알고리즘을 선택하는 것은 엄청난 작업입니다.
의사 결정 알고리즘은 대부분의 조직에서 널리 사용됩니다. 그들은 2시간마다 사소하고 큰 결정을 내려야 합니다. 높은 총 면적을 얻기 위해 선택할 재료를 분석하는 것부터 백엔드에서 결정이 이루어집니다. 최근 python 및 ML의 발전으로 데이터 처리의 기준이 높아졌습니다. 따라서 데이터는 엄청난 양으로 존재합니다. 임계값은 조직에 따라 다릅니다. 널리 사용되는 두 가지 주요 결정 알고리즘이 있습니다. 의사결정 트리와 랜덤 포레스트 - 친숙한 것 같죠?
나무와 숲!
쉬운 예를 들어 살펴보겠습니다.
100만원짜리 한 봉지를 사야 한다고 가정해보자. 달콤한 비스킷 10개. 이제 여러 비스킷 브랜드 중 하나를 결정해야 합니다.
의사 결정 트리 알고리즘을 선택합니다. 이제 Rs를 확인합니다. 달콤한 10 패킷. 아마도 가장 많이 팔린 비스킷을 선택할 것입니다. 당신은 Rs에 이동하기로 결정합니다. 초콜릿 비스킷 10개. 당신은 행복하다!

하지만 당신의 친구는 랜덤 포레스트 알고리즘을 사용했습니다. 이제 그는 몇 가지 결정을 내렸습니다. 또한 다수결을 선택합니다. 그는 다양한 딸기, 바닐라, 블루베리, 오렌지 맛 중에서 선택합니다. 그는 특정 Rs. 10 패킷은 원래 것보다 3 단위 더 많이 제공되었습니다. 바닐라 초콜릿으로 제공되었습니다. 그는 그 바닐라 초코 비스킷을 샀다. 그는 가장 행복한 사람이지만, 당신은 당신의 결정을 후회하게 될 것입니다.
세계 최고의 대학에서 머신 러닝 온라인 과정 (ML 및 AI의 석사, 대학원 과정 및 고급 인증 프로그램)에 참여하여 경력을 빠르게 추적하십시오 .
목차
의사 결정 트리와 랜덤 포레스트의 차이점은 무엇입니까?
1. 의사결정 트리
원천
Decision Tree는 머신 러닝에 사용되는 지도 학습 알고리즘입니다. 분류 및 회귀 알고리즘 모두에서 작동했습니다. 이름에서 알 수 있듯이 노드가 있는 트리와 같습니다. 분기는 기준의 수에 따라 다릅니다. 임계값 단위에 도달할 때까지 데이터를 이와 같은 분기로 분할합니다. 의사 결정 트리에는 루트 노드, 자식 노드 및 리프 노드가 있습니다.
재귀는 노드를 통과하는 데 사용됩니다. 다른 알고리즘이 필요하지 않습니다. 데이터를 정확하게 처리하고 선형 패턴에 가장 적합합니다. 대용량 데이터를 쉽게 처리하고 시간이 덜 걸립니다.
어떻게 작동합니까?
1. 분할
데이터가 의사결정 트리에 제공되면 분기 아래에서 다양한 범주로 분할됩니다.
반드시 읽어야 함: Naive Bayes 분류기: 장단점, 응용 프로그램 및 유형 설명
2. 가지치기
가지 치기는 더 나아가 그 가지를 갈가리 찢는 것입니다. 더 나은 방식으로 데이터에 보조금을 지급하는 분류 역할을 합니다. 마찬가지로, 과잉 부분의 가지치기라고 하는 것과 같은 방식으로 작동합니다. 리프 노드에 도달하고 가지치기가 종료됩니다. 이것은 의사 결정 트리에서 매우 중요한 부분입니다.
3. 나무의 선택
이제 데이터를 원활하게 사용할 수 있는 최상의 트리를 선택해야 합니다.
고려해야 할 요소는 다음과 같습니다.
4. 엔트로피
나무의 균질성을 확인하려면 엔트로피를 유추해야 합니다. 엔트로피가 0이면 동질적입니다. 그렇지 않으면.
5. 지식 획득
엔트로피가 감소하면 정보를 얻습니다. 이 정보는 분기를 더 분할하는 데 도움이 됩니다.
- 엔트로피를 계산해야 합니다.
- 다양한 기준에 따라 데이터 분할
- 최고의 정보를 선택하세요.
나무 깊이는 중요한 측면입니다. 깊이는 우리가 결론을 내리기 전에 내려야 할 결정의 수를 알려줍니다. 얕은 깊이 트리는 결정 트리 알고리즘에서 더 잘 수행됩니다.

의사결정나무의 장점과 단점
장점
- 쉬운
- 투명한 프로세스
- 숫자 및 범주 데이터 모두 처리
- 데이터가 클수록 더 나은 결과
- 속도
단점
- 과적합될 수 있음
- 큰 가지 치기 과정
- 최적화 보장되지 않음
- 복잡한 계산
- 높은 처짐
체크아웃: 기계 학습 모델 설명
2. 랜덤 포레스트
원천
지도 학습에도 사용되지만 매우 강력합니다. 그것은 매우 널리 사용됩니다. 기본적인 차이점은 단일 결정에 의존하지 않는다는 것입니다. 여러 결정을 기반으로 무작위 결정을 조합하고 다수를 기반으로 최종 결정을 내립니다.
최상의 예측을 검색하지 않습니다. 대신 여러 무작위 예측을 수행합니다. 따라서 더 많은 다양성이 추가되고 예측이 훨씬 원활해집니다.
랜덤 포레스트를 여러 의사 결정 트리의 모음으로 유추할 수 있습니다!
배깅은 의사 결정이 병렬로 작동하는 동안 임의의 포리스트를 설정하는 프로세스입니다.
1. 배깅
- 훈련 데이터 세트 가져오기
- 의사 결정 트리 만들기
- 일정 기간 동안 이 과정을 반복
- 이제 주요 투표를 하십시오. 승자는 당신의 결정입니다.
2. 부트스트래핑
부트스트래핑은 훈련 데이터에서 샘플을 무작위로 선택하는 것입니다. 이것은 임의의 절차입니다.
단계별로

- 무작위 선택 조건
- 루트 노드 계산
- 나뉘다
- 반복하다
- 당신은 숲을 얻는다
읽기 : Naive Bayes 설명
랜덤 포레스트의 장점과 단점
장점
- 강력하고 매우 정확함
- 정규화할 필요 없음
- 한 번에 여러 기능을 처리할 수 있음
- 병렬 방식으로 트리 실행
단점
- 그들은 때때로 특정 기능에 편향되어 있습니다.
- 느린
- 선형 방법에는 사용할 수 없습니다.
- 고차원 데이터의 경우 더 나쁨
결론
의사 결정 트리는 랜덤 포레스트에 비해 매우 쉽습니다. 의사 결정 트리는 몇 가지 결정을 결합하는 반면 랜덤 포레스트는 여러 의사 결정 트리를 결합합니다. 따라서 프로세스는 길지만 느립니다.
반면에 의사 결정 트리는 빠르고 큰 데이터 세트, 특히 선형 데이터 세트에서 쉽게 작동합니다. 랜덤 포레스트 모델은 엄격한 훈련이 필요합니다. 프로젝트를 시작하려고 할 때 둘 이상의 모델이 필요할 수 있습니다. 따라서 랜덤 포레스트가 많을수록 시간이 더 많이 걸립니다.
귀하의 요구 사항에 따라 다릅니다. 모델에 대한 작업 시간이 적다면 의사 결정 트리를 선택해야 합니다. 그러나 안정성과 신뢰할 수 있는 예측은 랜덤 포레스트 바구니에 있습니다.
열정이 있고 인공 지능에 대해 더 배우고 싶다면 400시간 이상의 학습, 실습 세션, 직업 지원 등을 제공 하는 IIIT-B & upGrad의 기계 학습 및 딥 러닝 PG 디플로마를 수강할 수 있습니다.
랜덤 포레스트는 일반 의사 결정 트리와 어떻게 다릅니까?
기계 학습에서 의사 결정 트리는 지도 학습 기술입니다. 분류 및 회귀 기술을 모두 사용할 수 있습니다. 이름에서 알 수 있듯이 노드가 있는 트리와 비슷합니다. 기준의 양은 지점을 결정합니다. 임계값 단위에 도달할 때까지 데이터를 이러한 분기로 나눕니다. 의사 결정 트리에는 루트 노드, 자식 노드 및 리프 노드가 있습니다. 랜덤 포레스트는 많은 힘이 있지만 지도 학습에도 사용됩니다. 꽤 유명합니다. 주요 차이점은 단일 결정에 의존하지 않는다는 것입니다. 많은 결정을 기반으로 무작위 결정을 조합한 다음 다수에 따라 최종 결정을 만듭니다.
단일 의사 결정 트리와 비교하여 임의 포리스트를 사용하는 주요 이점은 무엇입니까?
이상적인 세계에서 우리는 편향 관련 오류와 분산 관련 오류를 모두 줄이고 싶습니다. 이 문제는 임의 포리스트에 의해 잘 해결됩니다. 랜덤 포레스트는 결과가 단일 최종 결과로 결합된 일련의 결정 트리에 불과합니다. 편향으로 인한 오류를 크게 증가시키지 않으면서 과적합을 줄이는 능력 때문에 매우 강력합니다. 반면에 랜덤 포레스트는 단일 의사 결정 트리보다 훨씬 더 탄력적인 강력한 모델링 도구입니다. 과적합 및 편향 관련 부정확성을 줄이기 위해 수많은 의사결정 트리를 결합하여 사용 가능한 결과를 생성합니다.
의사 결정 트리의 한계는 무엇입니까?
결정 트리의 단점 중 하나는 다른 선택 예측 변수와 비교할 때 매우 불안정하다는 것입니다. 데이터가 약간 변경되어도 의사 결정 트리의 구조가 크게 변경되어 일반 이벤트에서 소비자가 기대하는 것과 다른 결과가 나타날 수 있습니다. 또한 주요 목적이 연속 변수의 결과를 예측하는 것인 경우 의사 결정 트리는 예측에 덜 도움이 됩니다.