의사결정 트리 회귀: 2022년에 알아야 할 사항

게시 됨: 2021-01-03

우선 회귀 모델은 숫자이기도 한 일부 입력 값이 제공될 때 숫자 값을 출력으로 제공하는 모델입니다. 이것은 분류 모델이 하는 것과 다릅니다. 테스트 데이터를 주어진 문제 설명과 관련된 다양한 클래스 또는 그룹으로 분류합니다.

그룹의 크기는 최소 2개에서 최대 1000개 이상일 수 있습니다. 선형 회귀, 다변수 회귀, 릿지 회귀, 로지스틱 회귀 등과 같은 다중 회귀 모델이 있습니다.

의사 결정 트리 회귀 모델도 이 회귀 모델 풀에 속합니다. 예측 모델은 이진 규칙을 사용하여 출력 또는 대상 값을 결정하는 숫자 값을 분류하거나 예측합니다.

의사 결정 트리 모델은 이름에서 알 수 있듯이 잎, 가지 및 노드가 있는 트리와 같은 모델입니다.

목차

기억해야 할 용어

알고리즘에 대해 알아보기 전에 모두 알고 있어야 하는 몇 가지 중요한 용어가 있습니다.

1.루트 노드: 분할이 시작되는 최상위 노드입니다.

2.분할: 하나의 노드를 여러 개의 하위 노드로 나누는 과정.

3. 터미널 노드 또는 리프 노드: 더 이상 분할되지 않는 노드를 터미널 노드라고 합니다.

4. 가지치기: 하위 노드를 제거하는 과정 .

5. 상위 노드: 하위 노드로 더 분할되는 노드.

6.자식 노드: 상위 노드에서 나온 하위 노드.

읽기: 의사 결정 트리 알고리즘 가이드

어떻게 작동합니까?

의사 결정 트리는 데이터 세트를 더 작은 하위 집합으로 나눕니다. 결정 리프는 검사 중인 속성의 값을 나타내는 두 개 이상의 분기로 분할됩니다. 의사 결정 트리의 최상위 노드는 루트 노드라고 하는 최상의 예측 변수입니다. ID3는 의사 결정 트리를 구성하는 알고리즘입니다.

하향식 접근 방식을 사용하고 표준 편차를 기반으로 분할이 이루어집니다. 빠른 수정을 위해 표준 편차는 평균 값에서 데이터 포인트 세트의 분포 또는 분산 정도입니다.

데이터 분포의 전반적인 변동성을 수량화합니다. 산포 또는 변동성의 값이 클수록 평균값에서 데이터 포인트의 더 큰 산포를 나타내는 표준 편차가 크다는 것을 의미합니다. 표본의 균일성을 측정하기 위해 표준편차를 사용합니다.

표본이 완전히 동질이면 표준 편차는 0입니다. 마찬가지로 이질성의 정도가 높을수록 표준편차가 커집니다. 표준편차를 계산하기 위해서는 표본의 평균과 표본의 개수가 필요합니다.

우리는 수학적 함수를 사용합니다 — 분할이 중지되어야 하는 시점을 결정하는 편차 계수 표준 편차를 모든 샘플의 평균으로 나누어 계산합니다.

최종 값은 리프 노드의 평균입니다. 예를 들어, 11월이 11월(2021년까지)에 걸쳐 다양한 급여로 더 분할되는 노드인 경우를 가정해 보겠습니다. 2022년의 경우 11월의 급여는 11월 노드 아래의 모든 급여의 평균이 됩니다.

두 클래스 또는 속성의 표준 편차로 이동합니다(위의 예와 같이 급여는 시급 또는 월별 기준이 될 수 있음).

정확한 의사 결정 트리를 구성하려면 계산 시 반환되는 속성을 찾고 가장 높은 표준 편차 감소를 반환하는 것이 목표여야 합니다. 간단히 말해서 가장 균질한 가지.

회귀를 위한 의사 결정 트리를 만드는 과정은 네 가지 중요한 단계를 다룹니다.

1. 먼저 목표변수의 표준편차를 계산한다. 이전 예에서와 같이 목표 변수를 급여로 고려하십시오. 예제를 사용하여 급여 값 집합의 표준 편차를 계산합니다.

2. 2단계에서 데이터 세트가 다른 속성으로 더 분할됩니다. 속성에 대해 이야기하면 목표 값이 급여이므로 가능한 속성을 월, 시간, 상사의 기분, 직위, 회사 연도 등으로 생각할 수 있습니다. 그런 다음 위의 공식을 사용하여 각 분기에 대한 표준 편차를 계산합니다. 이렇게 얻은 표준 편차는 분할 전의 표준 편차에서 뺍니다. 당면한 결과를 표준 편차 감소라고 합니다.

확인: 이진 트리의 유형

3. 이전 단계에서 언급한 대로 차이가 계산되면 표준편차 감소 값이 가장 큰 속성이 가장 좋은 속성입니다. 즉, 분할 전 표준 편차가 분할 전 표준 편차보다 커야 합니다. 실제로, 차이의 모드가 취해지며 그 반대의 경우도 가능합니다.

4. 전체 데이터셋은 선택된 속성의 중요도에 따라 분류됩니다. 잎이 아닌 분기에서 이 메서드는 사용 가능한 모든 데이터가 처리될 때까지 재귀적으로 계속됩니다. 이제 월이 표준 편차 감소 값을 기반으로 최고의 분할 속성으로 선택되었다고 가정합니다. 따라서 매월 12개의 분기가 있습니다. 이러한 분기는 나머지 속성 집합에서 최상의 속성을 선택하기 위해 추가로 분할됩니다.

5. 실제로는 몇 가지 마무리 기준이 필요합니다. 이를 위해 10%와 같이 특정 임계값보다 작아지는 분기에 대해 편차 계수 또는 CV를 사용 합니다. 이 기준을 달성하면 트리 구축 프로세스가 중지됩니다. 더 이상 분할이 발생하지 않기 때문에 이 속성에 속하는 값은 해당 노드에 있는 모든 값의 평균이 됩니다.

반드시 읽어야 함: 의사 결정 트리 분류

구현

의사결정 트리 회귀는 Python 언어와 scikit-learn 라이브러리를 사용하여 구현할 수 있습니다. sklearn.tree.DecisionTreeRegressor에서 찾을 수 있습니다.

중요한 매개변수 중 일부는 다음과 같습니다.

1. 기준: 분할의 품질을 측정합니다. 그 값은 "mse" 또는 평균 제곱 오차, "friedman_mse" 및 "mae" 또는 평균 절대 오차일 수 있습니다. 기본값은 mse입니다.

2.max_depth: 트리의 최대 깊이를 나타낸다. 기본값은 없음입니다.

3.max_features: 최적의 분할을 결정할 때 찾아야 할 기능의 수를 나타냅니다. 기본값은 없음입니다.

4.splitter: 이 매개변수는 각 노드에서 분할을 선택하는 데 사용됩니다. 사용 가능한 값은 "최상" 및 "임의"입니다. 기본값이 가장 좋습니다.

sklearn 문서의 예

>>> sklearn.datasets에서 load_diabetes 가져 오기

>>> sklearn.model_selection import cross_val_score 에서

>>> sklearn.tree 에서 DecisionTreeRegressor 가져오기

>>> X, y = load_diabetes(return_X_y= True )

>>> 회귀자 = DecisionTreeRegressor(random_state=0)

>>> cross_val_score(회귀자, X, y, cv=10)

# doctest: +건너뛰기

배열([-0.39…, -0.46…, 0.02…, 0.06…, -0.50…,

0.16…, 0.11…, -0.73…, -0.30…, -0.00…])

결론

데이터 과학 프로그램의 구조는 시장에서 최고의 고용주를 쉽게 찾을 수 있도록 데이터 과학 분야에서 진정한 인재가 될 수 있도록 설계되었습니다. upGrad와 함께 학습 경로 여정을 시작하려면 지금 등록하십시오!

데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하세요. 이 PG 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

기계 학습에서 회귀 분석이란 무엇입니까?

회귀는 하나 이상의 예측 변수 값을 기반으로 연속 결과를 예측하기 위해 기계 학습에 사용되는 수학적 알고리즘 세트입니다. 지도 머신 러닝이라는 우산 아래에서 회귀 분석은 기본 주제입니다. 단순히 변수 간의 관계를 이해하는 데 도움이 됩니다. 그것은 한 변수의 영향과 다른 변수에 대한 활동을 인식합니다. 입력 특성과 출력 레이블 모두 회귀 알고리즘을 훈련하는 데 사용됩니다.

기계 학습에서 다중 공선성은 무엇을 의미합니까?

다중 공선성은 데이터 세트의 독립 변수가 다른 변수보다 훨씬 더 많이 연결된 상태입니다. 회귀 모델에서 이는 하나의 독립 변수가 다른 독립 변수에서 예측될 수 있음을 나타냅니다. 모델에서 독립 변수의 영향 측면에서 다중 공선성은 더 넓은 신뢰 구간으로 이어질 수 있으며 결과적으로 신뢰도가 떨어집니다. 가장 영향을 미치는 변수의 순위를 엉망으로 만들기 때문에 데이터 세트에 있어서는 안 됩니다.

기계 학습에서 배깅이란 무엇을 의미합니까?

제공된 데이터셋에 노이즈가 있는 경우 분산을 낮추는 앙상블 학습 전략의 한 형태인 배깅을 사용합니다. 부트스트랩 집계는 배깅의 또 다른 동의어입니다. 배깅은 교체를 통해 훈련 세트에서 데이터의 무작위 샘플을 선택하는 프로세스입니다. 즉, 개별 데이터 포인트를 여러 번 선택할 수 있습니다. 기계 학습에서 랜덤 포레스트 알고리즘은 기본적으로 배깅 프로세스의 확장입니다.