기계 학습에서 배깅과 부스팅: 배깅과 부스팅의 차이점

게시 됨: 2020-11-12

기계 학습 응용 프로그램의 확산과 컴퓨팅 성능의 증가로 인해 데이터 과학자는 본질적으로 데이터 세트에 알고리즘을 구현했습니다. 알고리즘이 구현되는 핵심은 편향과 분산이 생성되는 방식입니다. 편향이 낮은 모델이 일반적으로 선호됩니다.

조직은 더 나은 결정을 내리고 더 많은 수익을 창출하기 위해 의사 결정 트리와 같은 지도 머신 러닝 기술을 사용합니다. 서로 다른 의사 결정 트리가 결합되면 앙상블 방법을 만들고 예측 결과를 제공합니다.

앙상블 모델을 사용하는 주요 목적은 약한 학습자의 집합을 그룹화하여 강한 학습자를 형성하는 것입니다. 수행 방식은 두 가지 기술로 정의됩니다. 배깅(Bagging) 및 부스팅(Boosting)은 다르게 작동하며 높은 정밀도와 정확도 및 적은 오류로 더 나은 결과를 얻기 위해 상호 교환적으로 사용됩니다. 앙상블 방법을 사용하면 여러 모델을 결합하여 강력한 모델을 생성합니다.

이 블로그 게시물에서는 앙상블 학습의 다양한 개념을 소개합니다. 첫째, 앙상블 방법을 이해하면 학습 관련 방법과 적합한 솔루션을 설계할 수 있는 경로가 열립니다. 또한 독자들에게 이 두 가지 방법이 어떻게 다른지, 기본 응용 프로그램과 두 방법에서 얻은 예측 결과에 대한 명확한 아이디어를 제공하기 위해 확장된 배깅 및 부스팅 개념에 대해 논의할 것입니다.

세계 최고의 대학에서 제공 하는 기계 학습 온라인 과정(석사, 대학원 대학원 프로그램, ML 및 AI 고급 인증 프로그램)에 참여하여 경력을 빠르게 추적하십시오.

앙상블 방식이란?

앙상블은 머신 러닝 알고리즘에서 사용되는 방법입니다. 이 방법에서는 여러 모델 또는 '약한 학습자'를 훈련하여 동일한 문제를 수정하고 통합하여 원하는 결과를 얻습니다. 약한 모델을 올바르게 결합하면 정확한 모델이 됩니다.

먼저, 이후에 클러스터링될 앙상블 학습 방법을 설정하기 위해 기본 모델이 필요합니다. 배깅 및 부스팅 알고리즘에서는 단일 기본 학습 알고리즘이 사용됩니다. 그 이유는 서로 다른 방식으로 훈련될 동질적인 약한 학습자가 있기 때문입니다.

이렇게 만들어진 앙상블 모델은 결국 동질 모델이라고 불릴 것이다. 그러나 이야기는 여기서 끝나지 않습니다. 서로 다른 유형의 기본 학습 알고리즘이 '이종 앙상블 모델'을 만드는 이기종 약한 학습자와 함축되어 있는 몇 가지 방법이 있습니다. 그러나 이 블로그에서는 이전 앙상블 모델만 다루며 가장 인기 있는 두 가지 앙상블 방법에 대해 논의합니다.

Bagging 은 서로 독립적으로 병렬로 학습하고 결합하여 모델 평균을 결정하는 동질적인 약한 학습자 모델입니다.
Boosting 은 또한 동질적인 약한 학습자 모델이지만 Bagging과 다르게 작동합니다. 이 모델에서 학습자는 학습 알고리즘의 모델 예측을 개선하기 위해 순차적이고 적응적으로 학습합니다.

그것은 한눈에 배깅 및 부스팅이었습니다. 두 가지를 자세히 살펴보겠습니다. 학습에서 오류를 일으키는 요인 중 일부는 노이즈, 편향 및 분산입니다. 앙상블 방법을 적용하여 이러한 요인을 줄여 결과의 안정성과 정확성을 높입니다.

더 읽어보기: 기계 학습 프로젝트 아이디어

자루에 담기

배깅은 'Bootstrap Aggregation'의 약자로 예측 모델의 분산을 줄이는 데 사용됩니다. 배깅(Bagging)은 서로 독립적으로 고려되는 서로 다른 학습자에 맞는 병렬 방법으로 동시에 교육할 수 있습니다.

배깅은 데이터 세트에서 훈련을 위한 추가 데이터를 생성합니다. 이는 원본 데이터 세트에서 대체하여 무작위 샘플링을 통해 달성됩니다. 대체 샘플링은 각각의 새로운 훈련 데이터 세트에서 일부 관찰을 반복할 수 있습니다. Bagging의 모든 요소는 새 데이터 세트에 나타날 확률이 동일합니다.

이러한 다중 데이터 세트는 여러 모델을 병렬로 훈련하는 데 사용됩니다. 서로 다른 앙상블 모델의 모든 예측 평균이 계산됩니다. 분류가 이루어질 때 투표 메커니즘에서 얻은 과반수 투표가 고려됩니다. 배깅은 분산을 줄이고 예측을 예상 결과로 조정합니다.

배깅의 예:

랜덤 포레스트 모델은 분산이 더 높은 의사결정 트리 모델이 있는 배깅을 사용합니다. 나무를 자라게 하기 위해 임의의 기능을 선택합니다. 여러 랜덤 트리가 랜덤 포레스트를 만듭니다.

부스팅

부스팅은 마지막 분류에 따라 관찰 가중치를 반복적으로 조정하는 순차 앙상블 방법입니다. 관찰이 잘못 분류되면 해당 관찰의 가중치가 증가합니다. 평신도 언어로 '부스팅'이라는 용어는 약한 학습자를 강한 학습자로 전환시키는 알고리즘을 나타냅니다. 편향 오류를 줄이고 강력한 예측 모델을 구축합니다.

각 반복에서 잘못 예측된 데이터 포인트가 발견되고 가중치가 증가합니다. 부스팅 알고리즘은 훈련 중에 각 결과 모델에 가중치를 할당합니다. 훈련 데이터 예측 결과가 좋은 학습자에게는 더 높은 가중치가 할당됩니다. 새로운 학습자를 평가할 때 Boosting은 학습자의 오류를 추적합니다.

부스팅의 예:

AdaBoost는 모델을 유지 관리하는 데 50% 더 적은 오류가 필요한 부스팅 기술을 사용합니다. 여기에서 Boosting은 단일 학습자를 유지하거나 삭제할 수 있습니다. 그렇지 않으면 더 나은 학습자를 얻을 때까지 반복이 반복됩니다.

배깅과 부스팅의 유사점과 차이점

배깅(Bagging)과 부스팅(Boosting)은 모두 널리 사용되는 방법으로 앙상블(Ensemble) 방법으로 분류된다는 보편적인 유사성을 가지고 있습니다. 여기에서 우리는 그들 사이의 더 많은 유사점을 강조하고 서로의 차이점을 강조합니다. 유사점을 이해하면 차이점을 더 쉽게 이해할 수 있으므로 먼저 유사점부터 시작하겠습니다.

배깅 및 부스팅: 유사점

배깅과 부스팅은 단일 학습자로부터 N 학습자를 얻는 데 초점을 맞춘 앙상블 방법입니다.
배깅 및 부스팅은 무작위 샘플링을 수행하고 여러 훈련 데이터 세트를 생성합니다.
Bagging과 Boosting은 평균 N명의 학습자를 만들거나 대부분의 학습자가 수행한 투표 순위를 취하여 최종 결정에 도달합니다.
Bagging 및 Boosting은 편차를 줄이고 오류를 최소화하여 더 높은 안정성을 제공합니다.

읽기: 기계 학습 모델 설명

배깅 및 부스팅: 차이점

우리가 이미 말했듯이,

배깅은 동일한 유형의 예측을 병합하는 방법입니다. 부스팅은 서로 다른 유형의 예측을 병합하는 방법입니다.

배깅은 편향이 아닌 분산을 줄이고 모델의 과적합 문제를 해결합니다. 부스팅은 분산이 아니라 편향을 줄입니다.

배깅에서 각 모델은 동일한 가중치를 받습니다. Boosting에서 모델은 성능에 따라 가중치가 부여됩니다.

모델은 Bagging에서 독립적으로 구축됩니다. 새 모델은 Boosting에서 이전에 빌드된 모델의 성능에 영향을 받습니다.

배깅에서 훈련 데이터 하위 집합은 훈련 데이터 세트를 대체하여 무작위로 그려집니다. Boosting에서 모든 새로운 하위 집합은 이전 모델에서 잘못 분류된 요소로 구성됩니다.

배깅은 일반적으로 분류기가 불안정하고 분산이 큰 경우에 적용됩니다. 부스팅은 일반적으로 분류기가 안정적이고 단순하며 바이어스가 높은 경우에 적용됩니다.

배깅 및 부스팅: 결정적인 요약

이제 배깅 및 부스팅의 개념을 철저히 설명했으므로 기사의 끝 부분에 도달했으며 둘 다 데이터 과학에서 똑같이 중요하고 모델에서 적용할 위치가 주어진 데이터 세트에 따라 어떻게 달라지는지 결론을 내릴 수 있습니다. 시뮬레이션 및 주어진 상황. 따라서 Random Forest 모델에서는 Bagging이 사용되며 AdaBoost 모델은 Boosting 알고리즘을 의미합니다.

머신 러닝 모델의 성능은 데이터를 훈련 세트와 검증 세트의 두 세트로 분할하여 달성되는 검증 정확도와 훈련 정확도를 비교하여 계산됩니다. 훈련 세트는 모델을 훈련하는 데 사용되며 검증 세트는 평가에 사용됩니다.

upGrad 와 연계하여 IIT Delhi의 머신러닝 이그 제 큐 티브 PG 프로그램을 확인할 수 있습니다. IIT Delhi 는 인도에서 가장 권위 있는 기관 중 하나입니다. 500명 이상의 사내 교수진과 함께 주제 문제에서 최고입니다.

부스팅보다 배깅이 더 나은 이유는 무엇입니까?

데이터 세트에서 배깅은 훈련을 위한 추가 데이터를 생성합니다. 이를 달성하기 위해 원본 데이터 세트의 무작위 샘플링 및 대체가 사용됩니다. 각각의 새로운 훈련 데이터 세트에서 대체 샘플링은 특정 관찰을 반복할 수 있습니다. 모든 Bagging 요소는 새로운 데이터 세트에서 나타날 가능성이 동일합니다. 이러한 다중 데이터 세트를 사용하여 다중 모델을 병렬로 학습합니다. 여러 앙상블 모델의 모든 예측값의 평균입니다. 분류를 결정할 때 투표 과정을 통해 얻은 과반수 득표를 고려합니다. 배깅은 변동을 줄이고 예측을 원하는 결과로 미세 조정합니다.

배깅과 부스팅의 주요 차이점은 무엇입니까?

배깅은 반복을 조합과 결합하여 원본 데이터의 다중 세트를 생성함으로써 데이터 세트에서 훈련을 위한 추가 데이터를 생성함으로써 예측 분산을 줄이는 기술입니다. 부스팅은 이전 분류를 기반으로 관측값의 가중치를 조정하기 위한 반복적인 전략입니다. 잘못 분류된 경우 관측값의 가중치를 높이려고 시도합니다. 부스팅은 일반적으로 좋은 예측 모델을 생성합니다.

배깅과 부스팅의 유사점은 무엇입니까?

배깅 및 부스팅은 단일 학습자에서 N 학습자를 생성하는 것을 목표로 하는 앙상블 전략입니다. 무작위로 샘플링하고 많은 훈련 데이터 세트를 생성합니다. N개의 학습자의 투표를 평균하거나 다수의 투표 순위를 선택하여 최종 결정에 도달합니다. 오차를 줄이면서 분산을 줄이고 안정성을 높입니다.