의사 결정 트리 인터뷰 질문 및 답변 [초보자 및 경험자용]

게시 됨: 2020-09-22

기계 학습의 세계에서 의사 결정 트리는 가장 존경할만한 알고리즘은 아니지만 그 중 하나입니다. 의사결정나무도 강력합니다. 결정 트리는 알고리즘에 제공된 인스턴스의 연속 값(회귀)을 예측하거나 클래스를 예측(분류 또는 분류 수행)하는 데 사용됩니다.

의사 결정 트리는 그 구조가 순서도와 유사합니다. 모든 의사결정 트리의 노드는 속성에 대해 수행된 테스트를 나타냅니다. 의사 결정 트리의 모든 분기는 각 노드에서 수행된 검사 결과를 나타냅니다. 모든 리프의 노드(터미널 노드라고도 함)는 클래스의 레이블을 보유합니다.

그것은 나무의 구조에 관한 것이었습니다. 그러나 의사결정 트리의 인기가 급증한 것은 생성 방식 때문이 아닙니다. 나무의 투명도는 강력하고 유용한 알고리즘이 지배하는 세계에서 자신의 위치를 제공합니다. 실제로 작은 의사 결정 트리에 대해 모든 것을 수작업으로 수행할 수 있으며 의사 결정 트리가 어떻게 형성될지 예측할 수 있습니다. 크기가 더 큰 나무의 경우 이 연습은 매우 지루합니다.

그러나 이것이 트리가 각 노드에서 무엇을 하는지 이해할 수 없다는 것을 의미하지는 않습니다. 배후에서 또는 내부에서 무슨 일이 일어나고 있는지 파악하는 능력은 의사 결정 트리를 다른 머신 러닝 알고리즘과 차별화합니다.

의사결정나무가 얼마나 중요한지 살펴보았듯이 의사결정나무는 기계 학습 전문가나 데이터 과학자에게도 중요합니다. 이 개념을 이해하는 데 도움이 되며 동시에 면접 감각을 더욱 강화할 수 있도록 의사 결정 트리 인터뷰 질문과 의사 결정 트리 인터뷰 질문 및 답변의 포괄적인 목록을 만들었습니다. 이 질문은 모든 인터뷰에 도움이 될 것입니다. 이러한 질문을 최대한 활용하려면 솔루션을 읽기 전에 먼저 이러한 각 질문을 해결해 보십시오.

의사결정나무 인터뷰 질문 및 답변

Q1. 아래에 두 개의 명령문이 나열됩니다. 두 문장을 모두 주의 깊게 읽은 다음 두 문장의 옵션 중 하나를 선택해야 합니다. 상황에 맞는 질문은 나무를 자루에 넣기에 대해 참인 진술을 선택하는 것입니다.

개별 트리는 배깅 트리에 대해 서로 전혀 의존하지 않습니다.
모델의 전반적인 성능을 향상시키기 위해 약한 학습자로부터 집계를 가져옵니다. 이 방법을 배깅 트리라고 합니다.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
위에서 언급한 옵션이 없습니다.

앤. 배깅 트리의 경우 이 두 진술이 모두 참이기 때문에 이 질문에 대한 정답은 C입니다. 배깅 트리 또는 부트스트랩 집계에서 이 알고리즘을 적용하는 주요 목표는 결정 트리에 존재하는 분산의 양을 줄이는 것입니다. 배깅 트리를 생성하는 메커니즘은 교체 시 데이터 훈련을 위해 존재하는 샘플에서 다수의 하위 집합을 가져오는 것입니다.

이제 이러한 작은 데이터 하위 집합 각각은 별도의 의사 결정 트리를 훈련하는 데 사용됩니다. 각 트리에 제공되는 정보는 고유하기 때문에 어떤 트리가 다른 트리에 영향을 미칠 가능성은 매우 낮아집니다. 이 모든 트리가 제공하는 최종 결과는 수집된 다음 출력을 제공하기 위해 처리됩니다. 따라서 두 번째 진술도 사실이 됩니다.

Q2. 아래에 두 개의 명령문이 나열됩니다. 두 문장을 모두 주의 깊게 읽은 다음 두 문장의 옵션 중 하나를 선택해야 합니다. 상황에 맞는 질문은 나무를 키우는 것에 대해 참인 문장을 선택하는 것입니다.

부스팅 트리의 약한 학습자는 서로 독립적입니다.
약한 학습자의 성능은 모두 수집 및 집계되어 부스트 트리의 전체 성능을 향상시킵니다.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
위에서 언급한 옵션이 없습니다.

앤. 나무의 부스팅이 어떻게 수행되는지 이해했다면 올바른 진술과 거짓 진술을 이해하고 구별할 수 있을 것입니다. 따라서 많은 약한 학습자가 직렬로 연결되면 부스트 트리가 생성됩니다. 이 시퀀스에 있는 각 트리는 하나의 유일한 목표를 가지고 있습니다. 바로 이전 트리가 만든 오류를 줄이는 것입니다.

이러한 방식으로 트리가 연결되면 모든 트리가 서로 독립적일 수 없으므로 첫 번째 진술이 거짓이 됩니다. 두 번째 진술은 주로 부스트 트리에서 모델의 전체 성능을 향상시키기 위해 적용되는 방법이기 때문에 사실입니다. 올바른 옵션은 B입니다. 즉, 명령문 번호 2만 TRUE이고 명령문 번호 1이 FALSE입니다.

Q3. 아래에 나열된 4개의 명령문이 표시됩니다. 당신은 그것들을 모두 주의 깊게 읽은 다음 네 가지 문장 다음에 나오는 옵션들 중 하나를 선택해야 할 것입니다. 상황에 맞는 질문은 Radom 숲과 Gradient boosting 앙상블 방법에 대해 참인 진술을 선택하는 것입니다.

랜덤 포레스트와 그라디언트 부스팅 앙상블 방법을 모두 사용하여 분류를 수행할 수 있습니다.
랜덤 포레스트는 분류 작업을 수행하는 데 사용할 수 있지만 그래디언트 부스팅 방법은 회귀만 수행할 수 있습니다.
그라디언트 부스팅은 분류 작업을 수행하는 데 사용할 수 있지만 랜덤 포레스트 방법은 회귀만 수행할 수 있습니다.
Random Forest 및 Gradient boosting 앙상블 방법을 모두 사용하여 회귀를 수행할 수 있습니다.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
3번 문장만 참이다
4번 문장만 참입니다.
명령문 번호 1과 4만 TRUE입니다.

앤. 이 질문에 대한 대답은 간단합니다. 이러한 앙상블 방법 모두 실제로 분류 및 회귀 작업을 모두 수행할 수 있습니다. 따라서 이 질문에 대한 답은 F가 될 것입니다. 왜냐하면 1번과 4번 진술만이 참이기 때문입니다.

Q4 아래와 같이 4개의 문장이 표시됩니다. 당신은 그것들을 모두 주의 깊게 읽은 다음 네 가지 문장 다음에 나오는 옵션들 중 하나를 선택해야 할 것입니다. 상황에 맞는 질문은 임의의 나무 숲을 고려하는 것입니다. 그렇다면 랜덤 포레스트에 있는 각 또는 임의의 나무에 대해 사실이 되는 것은 무엇입니까?

랜덤 포레스트를 구성하는 각 트리는 모든 기능의 하위 집합을 기반으로 합니다.
랜덤 포레스트의 각각은 모든 기능을 기반으로 합니다.
랜덤 포레스트의 각 트리는 존재하는 모든 관찰의 하위 집합을 기반으로 합니다.
랜덤 포레스트의 각 나무는 전체 관찰 세트를 기반으로 구축됩니다.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
3번 문장만 참이다
4번 문장만 참입니다.
1번과 4번 진술은 모두 TRUE입니다.
1번과 3번 진술은 모두 TRUE입니다.
두 번째와 세 번째 진술은 모두 참입니다.
2번과 4번 진술은 모두 TRUE입니다.

앤. 랜덤 포레스트의 생성은 배깅의 개념을 기반으로 합니다. 랜덤 포레스트를 구축하기 위해 관찰과 특징 모두에서 작은 부분집합을 취합니다. 부분 집합을 제거한 후 얻은 값은 단일 결정 트리에 입력됩니다. 그런 다음 모든 의사 결정 트리의 모든 값을 수집하여 최종 결정을 내립니다. 즉, 올바른 진술은 하나와 세 개뿐입니다. 따라서 올바른 옵션은 G입니다.

Q5 아래와 같이 4개의 문장이 표시됩니다. 당신은 그것들을 모두 주의 깊게 읽은 다음 네 가지 문장 다음에 나오는 옵션들 중 하나를 선택해야 할 것입니다. 상황에 맞는 질문은 그래디언트 부스팅 알고리즘의 "max_depth"로 알려진 하이퍼파라미터에 대한 올바른 설명을 선택하는 것입니다.

유효성 검사 세트의 정확도가 유사한 경우 이 하이퍼파라미터의 낮은 값을 선택하는 것이 좋습니다.
유효성 검사 세트의 정확도가 유사한 경우 이 하이퍼파라미터의 더 높은 값을 선택하는 것이 좋습니다.
이 하이퍼파라미터의 값을 높이면 이 모델이 실제로 데이터를 과적합할 가능성이 높아집니다.
이 하이퍼파라미터의 값을 높이면 이 모델이 실제로 데이터에 과소적합할 가능성이 높아집니다.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
3번 문장만 참이다
4번 문장만 참입니다.
1번과 4번 진술은 모두 TRUE입니다.
1번과 3번 진술은 모두 TRUE입니다.
두 번째와 세 번째 진술은 모두 참입니다.
2번과 4번 진술은 모두 TRUE입니다.

앤. 하이퍼파라미터 max_depth는 그래디언트 부스팅이 앞에 있는 데이터를 모델링할 때까지 깊이를 제어합니다. 이 하이퍼파라미터의 값을 계속 증가시키면 모델이 과적합됩니다. 따라서 3번 문장이 맞습니다. 유효성 검사 데이터에 대해 동일한 점수가 있는 경우 일반적으로 깊이가 더 낮은 모델을 선호합니다. 따라서 1번과 3번의 진술은 정확하므로 이 의사결정나무 인터뷰 질문에 대한 답은 g입니다.

Q6. 아래에 나열된 4개의 명령문이 표시됩니다. 당신은 그것들을 모두 주의 깊게 읽은 다음 네 가지 문장 다음에 나오는 옵션들 중 하나를 선택해야 할 것입니다. 상황에 맞는 질문은 다음 방법 중 조정 가능한 하이퍼파라미터 중 하나로 학습률이 없는 방법이 무엇인지입니다.

여분의 나무.
에이다부스트
랜덤 포레스트
그라디언트 부스팅.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
3번 문장만 참이다
4번 문장만 참입니다.
1번과 4번 진술은 모두 TRUE입니다.
1번과 3번 진술은 모두 TRUE입니다.
두 번째와 세 번째 진술은 모두 참입니다.
2번과 4번 진술은 모두 TRUE입니다.

앤. Extra Trees와 Random Forest만 조정 가능한 하이퍼파라미터 중 하나로 학습률이 없습니다. 따라서 1번과 3번 문장이 참이기 때문에 답은 g가 됩니다.

Q7. 사실인 옵션을 선택하십시오.

랜덤 포레스트 알고리즘에서만 실제 값을 이산화하여 처리할 수 있습니다.
그래디언트 부스팅 알고리즘에서만 실제 값을 이산적으로 만들어 처리할 수 있습니다.
랜덤 포레스트와 그래디언트 부스팅 모두에서 실제 값은 이산적으로 만들어 처리할 수 있습니다.
위에서 언급한 옵션이 없습니다.

앤. 두 알고리즘 모두 가능한 알고리즘입니다. 둘 다 실제 가치가 있는 기능을 쉽게 처리할 수 있습니다. 따라서 이 의사결정나무 인터뷰 질문과 답변에 대한 답은 C입니다.

Q8. 아래 목록에서 하나의 옵션을 선택하십시오. 문제는 앙상블 학습 알고리즘이 아닌 알고리즘을 선택하는 것입니다.

그라디언트 부스팅
에이다부스트
추가 나무
랜덤 포레스트
의사결정나무

앤. 이 질문은 간단합니다. 이러한 알고리즘 중 하나만 앙상블 학습 알고리즘이 아닙니다. 명심해야 할 한 가지 경험 법칙은 모든 앙상블 학습 방법에는 둘 이상의 의사 결정 트리를 사용해야 한다는 것입니다. 옵션 E에는 단일 결정 트리만 있으므로 앙상블 학습 알고리즘이 아닙니다. 따라서 이 질문에 대한 답은 E(의사결정 트리)가 됩니다.

Q9. 아래에 두 개의 명령문이 나열됩니다. 두 문장을 모두 주의 깊게 읽은 다음 두 문장의 옵션 중 하나를 선택해야 합니다. 문맥적 질문은 앙상블 학습의 패러다임에서 다음 중 어느 것이 사실인지입니다.

앙상블의 나무 수는 가능한 한 높아야 합니다.
Random Forest 알고리즘을 구현한 후에도 여전히 무슨 일이 일어나고 있는지 해석할 수 있습니다.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
위에서 언급한 옵션이 없습니다.

앤. 모든 앙상블 학습 방법은 엄청난 수의 결정 트리(그 자체로는 매우 약한 학습자임)를 함께 결합하는 것을 기반으로 하므로 앙상블 방법을 만들기 위해 더 많은 트리를 갖는 것이 항상 유리할 것입니다. 그러나 랜덤 포레스트의 알고리즘은 블랙박스와 같습니다. 모델 내부에서 무슨 일이 일어나고 있는지 알 수 없습니다. 따라서 랜덤 포레스트 알고리즘을 적용한 후에는 모든 해석 가능성을 잃을 수밖에 없습니다. 따라서 이 질문에 대한 정답은 A가 될 것입니다. 왜냐하면 참인 진술만이 진술 번호 1이기 때문입니다.

Q10. TRUE 또는 FALSE로만 응답하십시오. 배깅 알고리즘은 분산이 높고 편향이 낮은 모델에서 가장 잘 작동합니까?

앤. 진실. Bagging은 실제로 고분산 및 저편향 모델에 사용하기에 가장 유리합니다.

Q11. . 아래에 두 개의 명령문이 나열됩니다. 두 문장을 모두 주의 깊게 읽은 다음 두 문장의 옵션 중 하나를 선택해야 합니다. 상황에 맞는 질문은 Gradient boosting tree에 대한 올바른 아이디어를 선택하는 것입니다.

부스팅의 모든 단계에서 알고리즘은 모든 현재 모델 문제가 보상되도록 다른 트리를 도입합니다.
손실 함수를 최소화하기 위해 경사 하강법을 적용할 수 있습니다.
명령문 번호 1만 TRUE입니다.
두 번째 명령문만 참입니다.
1번과 2번 문장은 모두 TRUE입니다.
위에서 언급한 옵션이 없습니다.

앤. 이 질문에 대한 대답은 두 옵션이 모두 TRUE임을 의미하는 C입니다. 첫 번째 문장의 경우 이것이 부스팅 알고리즘이 작동하는 방식입니다. 모델에 도입된 새로운 트리는 기존 알고리즘의 성능을 향상시키기 위한 것입니다. 네, 그래디언트 디센트 알고리즘은 손실 함수를 줄이기 위해 적용되는 함수입니다.

Q12. 기울기 부스팅 알고리즘에서 학습률에 대한 다음 설명 중 옳은 것은?

설정한 학습률은 가능한 한 높아야 합니다.
설정한 학습률은 가능한 한 높게 설정하지 말고 가능한 한 낮게 설정해야 합니다.
학습률은 낮아야 하지만 너무 낮아서는 안 됩니다.
설정하는 학습률은 높아야 하지만 너무 높아서는 안 됩니다.

앤. 학습률은 낮아야 하지만 너무 낮아서는 안 되므로 이 의사결정나무 인터뷰 질문과 답변에 대한 대답은 옵션 C가 될 것입니다.

확인: 기계 학습 인터뷰 질문

다음은?

의사 결정 트리, 기계 학습에 대해 자세히 알아보려면 작업 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT-B 동문 자격, 5개 이상의 실질적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

의사 결정 트리를 어떻게 개선할 수 있습니까?

의사 결정 트리는 조건부 자율 또는 결정 지점을 노드로 표시하고 다양한 가능한 결과를 잎으로 나타내는 간단한 시각적 보조 도구를 만드는 도구입니다. 간단히 말해서 의사 결정 트리는 의사 결정 프로세스의 모델입니다. 중지 기준이 항상 명시되도록 하여 의사결정 트리를 개선할 수 있습니다. 중지 기준이 명시되지 않으면 추가 탐색이 필요한지 궁금하고 중지해야 하는지 여부에 대한 의구심도 남습니다. 의사 결정 트리는 독자가 쉽게 따르고 혼동하지 않도록 구성해야 합니다.

의사 결정 트리 정확도가 낮은 이유는 무엇입니까?

의사 결정 트리 정확도는 예상보다 낮습니다. 이는 다음과 같은 이유로 발생할 수 있습니다. 잘못된 데이터 - 머신 러닝 알고리즘에 올바른 데이터를 사용하는 것이 매우 중요합니다. 잘못된 데이터는 잘못된 결과를 초래할 수 있습니다. 무작위성 - 때때로 시스템이 너무 복잡하여 미래에 어떤 일이 일어날지 예측할 수 없습니다. 이 경우 의사 결정 트리의 정확도도 떨어집니다. 과적합 - 의사결정 트리는 데이터의 고유성을 포착하지 못할 수 있으므로 일반화로 간주될 수 있습니다. 동일한 데이터를 사용하여 트리를 조정하면 데이터가 과적합될 수 있습니다.

의사 결정 트리는 어떻게 정리됩니까?

분기 및 경계 알고리즘을 사용하여 의사결정 트리를 정리합니다. 분기 및 경계 알고리즘은 트리의 노드를 반복하고 각 반복에서 목적 함수 값의 경계를 지정하여 의사 결정 트리에 대한 최적의 솔루션을 찾습니다. 목적 함수는 비즈니스에 대한 의사 결정 트리의 가치입니다. 각 노드에서 알고리즘은 트리의 분기를 제거하거나 분기를 새 노드로 잘라냅니다. 가장 좋은 점은 분기가 최적의 솔루션이 아닌 경우에도 가지를 자를 수 있다는 것입니다.