Bagging vs Boosting w uczeniu maszynowym: różnica między Baggingiem a Boostingiem

Opublikowany: 2020-11-12

Ze względu na rozprzestrzenianie się aplikacji uczenia maszynowego i wzrost mocy obliczeniowej naukowcy zajmujący się danymi z natury wprowadzili algorytmy do zbiorów danych. Kluczem do implementacji algorytmu jest sposób wytwarzania błędu systematycznego i wariancji. Generalnie preferowane są modele z niskim odchyleniem.

Organizacje wykorzystują nadzorowane techniki uczenia maszynowego, takie jak drzewa decyzyjne, aby podejmować lepsze decyzje i generować większe zyski. Połączone różne drzewa decyzyjne tworzą metody zespołowe i zapewniają przewidywalne wyniki.

Głównym celem stosowania modelu zespołowego jest pogrupowanie grupy słabych uczniów i uformowanie silnego ucznia. Sposób, w jaki to się robi, jest zdefiniowany w dwóch technikach: Bagging i Boosting, które działają inaczej i są używane zamiennie w celu uzyskania lepszych wyników z wysoką precyzją i dokładnością oraz z mniejszą liczbą błędów. Dzięki metodom zespołowym wiele modeli jest łączonych w celu stworzenia potężnego modelu.

Ten wpis na blogu przedstawi różne koncepcje uczenia się zespołowego. Po pierwsze, zrozumienie metody zespołowej otworzy ścieżki do metod związanych z uczeniem się i projektowania dostosowanych rozwiązań. Ponadto omówimy rozszerzone koncepcje Bagging i Boosting, aby dać czytelnikom jasne wyobrażenie o tym, czym różnią się te dwie metody, ich podstawowych zastosowaniach i wynikach predykcyjnych uzyskanych z obu.

Dołącz do internetowych kursów uczenia maszynowego z najlepszych światowych uniwersytetów — studiów magisterskich, programów podyplomowych dla kadry kierowniczej i zaawansowanego programu certyfikacji w zakresie uczenia się maszynowego i sztucznej inteligencji, aby przyspieszyć swoją karierę.

Spis treści

Co to jest metoda zespołowa?

Ensemble jest metodą wykorzystywaną w algorytmie uczenia maszynowego. W tej metodzie wiele modeli lub „słabych uczniów” jest szkolonych w celu rozwiązania tego samego problemu i integrowanych w celu uzyskania pożądanych rezultatów. Słabe modele połączone słusznie dają dokładne modele.

Po pierwsze, modele podstawowe są potrzebne do utworzenia metody uczenia zespołowego, która zostanie następnie połączona w klastry. W algorytmach Bagging i Boosting używany jest pojedynczy podstawowy algorytm uczenia. Powodem tego jest to, że będziemy mieć pod ręką jednorodnych, słabych uczniów, którzy będą szkoleni na różne sposoby.

Powstały w ten sposób model zespołowy zostanie ostatecznie nazwany modelem jednorodnym. Ale historia nie kończy się tutaj. Istnieje kilka metod, w których różne typy podstawowych algorytmów uczenia się są również implikowane z heterogenicznymi słabymi uczniami tworzącymi „heterogeniczny model zespołowy”. Ale na tym blogu zajmiemy się tylko poprzednim modelem zespołowym i omówimy w nim dwie najpopularniejsze metody zespołowe.

Bagging to jednorodny model słabych uczniów, który równolegle uczy się od siebie nawzajem i łączy je w celu określenia średniej modelu.
Boosting jest również jednorodnym modelem słabych uczniów, ale działa inaczej niż Bagging. W tym modelu uczniowie uczą się sekwencyjnie i adaptacyjnie, aby poprawić przewidywania modelu algorytmu uczenia się.

To było Bagging and Boosting na pierwszy rzut oka. Przyjrzyjmy się ich obu szczegółowo. Niektóre z czynników powodujących błędy w uczeniu się to szum, stronniczość i wariancja. Metodę zespołową stosuje się w celu zmniejszenia tych czynników, co skutkuje stabilnością i dokładnością wyniku.

Przeczytaj także: Pomysły na projekty uczenia maszynowego

Parcianka

Bagging to skrót od „Bootstrap Aggregation” i służy do zmniejszania wariancji w modelu predykcyjnym. Bagging to równoległa metoda, która pasuje do różnych, uważanych za uczniów niezależnie od siebie, umożliwiając jednoczesne ich szkolenie.

Bagging generuje dodatkowe dane do szkolenia ze zbioru danych. Osiąga się to poprzez losowe pobieranie próbek z zastąpieniem oryginalnego zestawu danych. Próbkowanie z wymianą może powtórzyć niektóre obserwacje w każdym nowym zestawie danych uczących. Każdy element w Bagging jest z równym prawdopodobieństwem pojawienia się w nowym zbiorze danych.

Te zestawy danych są używane do równoległego uczenia wielu modeli. Obliczana jest średnia wszystkich przewidywań z różnych modeli zespołowych. Większość głosów uzyskanych z mechanizmu głosowania jest brana pod uwagę przy dokonywaniu klasyfikacji. Bagging zmniejsza wariancję i dostosowuje prognozę do oczekiwanego wyniku.

Przykład pakowania:

Model Random Forest wykorzystuje Bagging, w którym obecne są modele drzew decyzyjnych o większej wariancji. Dokonuje losowego wyboru funkcji do uprawy drzew. Kilka losowych drzew tworzy losowy las.

Wzmacnianie

Wzmacnianie to sekwencyjna metoda zespołowa, która iteracyjnie dostosowuje wagę obserwacji zgodnie z ostatnią klasyfikacją. Jeśli obserwacja jest nieprawidłowo sklasyfikowana, zwiększa to wagę tej obserwacji. Termin „wzmacnianie” w języku laika odnosi się do algorytmów, które przekształcają słabego ucznia w silniejszego. Zmniejsza błąd błędu systematycznego i buduje silne modele predykcyjne.

Punkty danych błędnie przewidziane w każdej iteracji są wykrywane, a ich wagi są zwiększane. Algorytm Boosting przydziela wagi każdemu wynikowemu modelowi podczas uczenia. Uczeń z dobrymi wynikami przewidywania danych treningowych otrzyma wyższą wagę. Oceniając nowego ucznia, Boosting śledzi błędy ucznia.

Przykład wzmocnienia:

AdaBoost wykorzystuje techniki Boosting, w których do utrzymania modelu wymagany jest o 50% mniejszy błąd. Tutaj Boosting może zatrzymać lub odrzucić jednego ucznia. W przeciwnym razie iteracja jest powtarzana aż do osiągnięcia lepszego ucznia.

Podobieństwa i różnice między Baggingiem a Boostingiem

Bagging i Boosting, obie będące powszechnie stosowanymi metodami, mają uniwersalne podobieństwo do klasyfikowania jako metody zespołowe. Tutaj podkreślimy więcej podobieństw między nimi, a następnie różnice, jakie mają między sobą. Zacznijmy od podobieństw, ponieważ ich zrozumienie ułatwi zrozumienie różnic.

Baging i wzmacnianie: podobieństwa

Bagging i Boosting to metody zespołowe skoncentrowane na pozyskiwaniu N uczniów od jednego ucznia.
Bagging i Boosting dokonują losowego próbkowania i generują kilka zestawów danych treningowych
Bagging i Boosting dochodzą do ostatecznej decyzji, ustalając średnią z N uczniów lub biorąc pod uwagę pozycję głosowania wykonaną przez większość z nich.
Bagging i Boosting zmniejszają wariancję i zapewniają wyższą stabilność przy minimalizacji błędów.

Przeczytaj: Wyjaśnienie modeli uczenia maszynowego

Bagging i Boosting: Różnice

Jak już powiedzieliśmy,

Bagging to metoda łączenia tego samego typu prognoz. Boosting to metoda łączenia różnych typów przewidywań.

Bagging zmniejsza wariancję, a nie stronniczość i rozwiązuje problemy związane z nadmiernym dopasowaniem w modelu. Wzmocnienie zmniejsza stronniczość, a nie wariancję.

W Bagging każdy model otrzymuje równą wagę. W trybie Boosting modele są ważone na podstawie ich wydajności.

Modele są budowane niezależnie w Bagging. Na nowe modele wpływa wydajność wcześniej zbudowanego modelu w funkcji Boosting.

W Bagging podzbiory danych uczących są losowo losowane z zamiennikiem zestawu danych uczących. W trybie Boosting każdy nowy podzbiór zawiera elementy, które zostały błędnie sklasyfikowane przez poprzednie modele.

Workowanie jest zwykle stosowane tam, gdzie klasyfikator jest niestabilny i ma dużą wariancję. Wzmocnienie jest zwykle stosowane tam, gdzie klasyfikator jest stabilny i prosty oraz ma wysokie odchylenie.

Baging i wzmacnianie: ostateczne podsumowanie

Teraz, gdy dokładnie opisaliśmy koncepcje Bagging i Boosting, dotarliśmy do końca artykułu i możemy stwierdzić, że oba są równie ważne w Data Science i gdzie należy zastosować w modelu, zależy od podanych zbiorów danych, ich symulacja i dane okoliczności. Tak więc, z jednej strony, w modelu Losowego Lasu używany jest Bagging, a model AdaBoost implikuje algorytm Boosting.

Wydajność modelu uczenia maszynowego jest obliczana przez porównanie jego dokładności uczenia z dokładnością walidacji, co uzyskuje się poprzez podzielenie danych na dwa zestawy: zestaw uczący i zestaw walidacyjny. Zestaw uczący służy do uczenia modelu, a zestaw do walidacji służy do oceny.

Możesz sprawdzić program Executive PG w IIT Delhi w uczeniu maszynowym we współpracy z upGrad . IIT Delhi to jedna z najbardziej prestiżowych instytucji w Indiach. Z większą liczbą ponad 500 wewnętrznych członków wydziału, którzy są najlepsi w tej dziedzinie.

Dlaczego pakowanie jest lepsze niż wzmacnianie?

Z zestawu danych workowanie tworzy dodatkowe dane do treningu. Aby to osiągnąć, stosuje się losowe próbkowanie i podstawianie z oryginalnego zestawu danych. W każdym nowym zestawie danych uczących próbkowanie z wymianą może powtórzyć pewne obserwacje. Każdy element Bagging ma taką samą szansę na pojawienie się w nowym zestawie danych. Wiele modeli jest trenowanych równolegle przy użyciu tych wielu zestawów danych. Jest to średnia wszystkich prognoz z kilku modeli zespołowych. Przy ustalaniu klasyfikacji bierze się pod uwagę większość głosów uzyskaną w procesie głosowania. Bagging zmniejsza zmienność i dostraja prognozę do pożądanego rezultatu.

Jakie są główne różnice w workowaniu i wzmacnianiu?

Bagging to technika zmniejszania wariancji predykcji poprzez tworzenie dodatkowych danych do trenowania z zestawu danych poprzez łączenie powtórzeń z kombinacjami w celu utworzenia wielu zestawów oryginalnych danych. Wzmacnianie to iteracyjna strategia dostosowywania wagi obserwacji w oparciu o poprzednią klasyfikację. Próbuje zwiększyć wagę obserwacji, jeśli została błędnie skategoryzowana. Wzmocnienie tworzy ogólnie dobre modele predykcyjne.

Jakie są podobieństwa między workowaniem a wzmacnianiem?

Bagging i boosting to strategie zespołowe, których celem jest wyprodukowanie N uczniów z jednego ucznia. Próbkują losowo i tworzą wiele zestawów danych treningowych. Ostateczną decyzję podejmują uśredniając głosy N uczniów lub wybierając pozycję głosowania większości z nich. Zmniejszają wariancję i zwiększają stabilność, jednocześnie redukując błędy.