Bagging vs. Boosting beim maschinellen Lernen: Unterschied zwischen Bagging und Boosting

Veröffentlicht: 2020-11-12

Aufgrund der Verbreitung von Anwendungen für maschinelles Lernen und einer Zunahme der Rechenleistung haben Datenwissenschaftler von Natur aus Algorithmen in die Datensätze implementiert. Der Schlüssel zur Implementierung eines Algorithmus ist die Art und Weise, wie Bias und Varianz erzeugt werden. Modelle mit geringer Vorspannung werden im Allgemeinen bevorzugt.

Organisationen verwenden überwachte maschinelle Lerntechniken wie Entscheidungsbäume, um bessere Entscheidungen zu treffen und mehr Gewinne zu erzielen. Verschiedene Entscheidungsbäume ergeben, wenn sie kombiniert werden, Ensemble-Methoden und liefern Vorhersageergebnisse.

Der Hauptzweck der Verwendung eines Ensemblemodells besteht darin, eine Gruppe schwacher Lerner zu gruppieren und einen starken Lerner zu bilden. Die Art und Weise, wie es gemacht wird, wird in den beiden Techniken definiert: Bagging und Boosting, die unterschiedlich funktionieren und austauschbar verwendet werden, um bessere Ergebnisse mit hoher Präzision und Genauigkeit und weniger Fehlern zu erzielen. Bei Ensemble-Methoden werden mehrere Modelle zu einem leistungsfähigen Modell zusammengeführt.

Dieser Blogbeitrag stellt verschiedene Konzepte des Ensemblelernens vor. Erstens wird das Verständnis der Ensemble-Methode Wege zu lernbezogenen Methoden und zur Entwicklung angepasster Lösungen eröffnen. Darüber hinaus werden wir die erweiterten Konzepte von Bagging und Boosting diskutieren, um den Lesern eine klare Vorstellung davon zu vermitteln, wie sich diese beiden Methoden unterscheiden, ihre grundlegenden Anwendungen und die aus beiden erhaltenen Vorhersageergebnisse.

Nehmen Sie an den Online -Kursen für maschinelles Lernen von den besten Universitäten der Welt teil – Master, Executive Post Graduate Programs und Advanced Certificate Program in ML & AI, um Ihre Karriere zu beschleunigen.

Inhaltsverzeichnis

Was ist eine Ensemble-Methode?

Das Ensemble ist eine Methode, die im maschinellen Lernalgorithmus verwendet wird. Bei dieser Methode werden mehrere Modelle oder „schwache Lernende“ darauf trainiert, dasselbe Problem zu beheben, und integriert, um die gewünschten Ergebnisse zu erzielen. Schwache Modelle kombiniert ergeben zu Recht genaue Modelle.

Zunächst werden die Basismodelle benötigt, um ein Ensemble-Lernverfahren aufzubauen, das anschließend geclustert wird. In den Bagging- und Boosting-Algorithmen wird ein einziger Basis-Lernalgorithmus verwendet. Der Grund dafür ist, dass wir homogene schwache Lerner zur Hand haben werden, die auf unterschiedliche Weise trainiert werden.

Das so erstellte Ensemble-Modell wird schließlich als homogenes Modell bezeichnet. Aber die Geschichte endet hier nicht. Es gibt einige Methoden, bei denen verschiedene Arten von Basislernalgorithmen auch mit heterogenen schwachen Lernenden impliziert sind, die ein „heterogenes Ensemblemodell“ bilden. Aber in diesem Blog werden wir uns nur mit dem ehemaligen Ensemble-Modell befassen und hiermit die beiden beliebtesten Ensemble-Methoden diskutieren.

  1. Bagging ist ein homogenes Modell schwacher Lerner, das unabhängig voneinander parallel voneinander lernt und diese zur Ermittlung des Modelldurchschnitts kombiniert.
  2. Boosting ist ebenfalls ein homogenes Modell schwacher Lerner, funktioniert aber anders als Bagging. In diesem Modell lernen Lernende sequentiell und adaptiv, um Modellvorhersagen eines Lernalgorithmus zu verbessern.

Das war Bagging and Boosting auf einen Blick. Sehen wir uns beide im Detail an. Einige der Faktoren, die Fehler beim Lernen verursachen, sind Rauschen, Voreingenommenheit und Varianz. Die Ensemble-Methode wird angewendet, um diese Faktoren zu reduzieren, was zu Stabilität und Genauigkeit des Ergebnisses führt.

Lesen Sie auch: Projektideen für maschinelles Lernen

Absacken

Bagging ist ein Akronym für „Bootstrap Aggregation“ und wird verwendet, um die Varianz im Vorhersagemodell zu verringern. Bagging ist eine parallele Methode, die unabhängig voneinander auf verschiedene, berücksichtigte Lernende passt und es ermöglicht, sie gleichzeitig zu trainieren.

Bagging generiert zusätzliche Daten für das Training aus dem Datensatz. Dies wird durch Zufallsstichprobe mit Ersetzung aus dem Originaldatensatz erreicht. Das Abtasten mit Ersetzen kann einige Beobachtungen in jedem neuen Trainingsdatensatz wiederholen. Jedes Element in Bagging taucht mit gleicher Wahrscheinlichkeit in einem neuen Datensatz auf.

Diese Multi-Datensätze werden verwendet, um mehrere Modelle parallel zu trainieren. Der Durchschnitt aller Vorhersagen von verschiedenen Ensemble-Modellen wird berechnet. Bei der Klassifizierung wird die aus dem Abstimmungsmechanismus gewonnene Stimmenmehrheit berücksichtigt. Bagging verringert die Varianz und stimmt die Vorhersage auf ein erwartetes Ergebnis ab.

Beispiel für das Absacken:

Das Random-Forest-Modell verwendet Bagging, bei dem Entscheidungsbaummodelle mit höherer Varianz vorhanden sind. Es trifft eine zufällige Feature-Auswahl, um Bäume zu züchten. Mehrere zufällige Bäume bilden einen Random Forest.

Erhöhen

Boosting ist eine sequentielle Ensemble-Methode, die die Gewichtung der Beobachtung gemäß der letzten Klassifizierung iterativ anpasst. Wenn eine Beobachtung falsch klassifiziert wird, erhöht dies das Gewicht dieser Beobachtung. Der Begriff „Boosting“ in einer Laiensprache bezieht sich auf Algorithmen, die einen schwachen Lerner in einen stärkeren umwandeln. Es verringert den Bias-Fehler und erstellt starke Vorhersagemodelle.

Datenpunkte, die bei jeder Iteration falsch vorhergesagt wurden, werden erkannt und ihre Gewichte werden erhöht. Der Boosting-Algorithmus weist jedem resultierenden Modell während des Trainings Gewichtungen zu. Einem Lernenden mit guten Trainingsdatenvorhersageergebnissen wird eine höhere Gewichtung zugewiesen. Bei der Bewertung eines neuen Lernenden verfolgt Boosting die Fehler des Lernenden.

Beispiel für Boosten:

Der AdaBoost verwendet Boosting-Techniken, bei denen 50 % weniger Fehler erforderlich sind, um das Modell zu warten. Hier kann Boosting einen einzelnen Lernenden behalten oder verwerfen. Andernfalls wird die Iteration wiederholt, bis ein besserer Lerner erreicht wird.

Ähnlichkeiten und Unterschiede zwischen Bagging und Boosting

Bagging und Boosting, beides die weit verbreiteten Methoden, haben eine universelle Ähnlichkeit, da sie als Ensemble-Methoden klassifiziert werden. Hier werden wir mehr Ähnlichkeiten zwischen ihnen hervorheben, gefolgt von den Unterschieden, die sie voneinander haben. Beginnen wir zunächst mit Ähnlichkeiten, da das Verständnis dieser Unterschiede das Verständnis der Unterschiede erleichtert.

Bagging und Boosting: Ähnlichkeiten

  1. Bagging und Boosting sind Ensemble-Methoden, die darauf abzielen, N Lernende von einem einzelnen Lernenden zu bekommen.
  2. Bagging und Boosting machen zufällige Stichproben und generieren mehrere Trainingsdatensätze
  3. Bagging und Boosting kommen zur endgültigen Entscheidung, indem sie einen Durchschnitt von N Lernenden treffen oder den von den meisten von ihnen erzielten Abstimmungsrang einnehmen.
  4. Bagging und Boosting reduzieren die Varianz und bieten eine höhere Stabilität bei gleichzeitiger Minimierung von Fehlern.

Lesen Sie: Modelle für maschinelles Lernen erklärt

Bagging und Boosting: Unterschiede

Wie wir bereits sagten,

Bagging ist eine Methode zum Zusammenführen derselben Art von Vorhersagen. Boosting ist eine Methode zum Zusammenführen verschiedener Arten von Vorhersagen.

Bagging verringert die Varianz, nicht die Verzerrung, und löst Überanpassungsprobleme in einem Modell. Das Boosten verringert die Verzerrung, nicht die Varianz.

Beim Bagging erhält jedes Modell das gleiche Gewicht. Beim Boosten werden Modelle basierend auf ihrer Leistung gewichtet.

Modelle werden in Bagging unabhängig voneinander gebaut. Neue Modelle werden durch die Leistung eines zuvor gebauten Modells in Boosting beeinflusst.

Beim Bagging werden Teilmengen von Trainingsdaten zufällig mit einem Ersatz für den Trainingsdatensatz gezogen. Beim Boosting umfasst jede neue Teilmenge die Elemente, die von früheren Modellen falsch klassifiziert wurden.

Absacken wird normalerweise dort angewendet, wo der Klassierer instabil ist und eine hohe Varianz aufweist. Boosting wird normalerweise angewendet, wenn der Klassifikator stabil und einfach ist und eine hohe Vorspannung hat.

Bagging und Boosting: Eine schlüssige Zusammenfassung

Nachdem wir nun die Konzepte von Bagging und Boosting ausführlich beschrieben haben, sind wir am Ende des Artikels angelangt und können schlussfolgern, dass beide in Data Science gleichermaßen wichtig sind und wo sie in einem Modell angewendet werden, hängt von den gegebenen Datensätzen ab Simulation und den gegebenen Umständen. So wird einerseits in einem Random-Forest-Modell Bagging verwendet und das AdaBoost-Modell impliziert den Boosting-Algorithmus.

Die Leistung eines maschinellen Lernmodells wird berechnet, indem seine Trainingsgenauigkeit mit der Validierungsgenauigkeit verglichen wird, was durch Aufteilen der Daten in zwei Sätze erreicht wird: den Trainingssatz und den Validierungssatz. Der Trainingssatz wird zum Trainieren des Modells verwendet, und der Validierungssatz wird zum Bewerten verwendet.

Sie können das Executive PG Program in Machine Learning des IIT Delhi in Zusammenarbeit mit upGrad überprüfen . IIT Delhi ist eine der renommiertesten Institutionen in Indien. Mit mehr als 500 internen Fakultätsmitgliedern, die die Besten in den Fachgebieten sind.

Warum ist Baggen besser als Boosten?

Aus dem Datensatz erstellt Bagging zusätzliche Daten für das Training. Um dies zu erreichen, werden zufällige Stichproben und Substitutionen aus dem ursprünglichen Datensatz verwendet. In jedem neuen Trainingsdatensatz kann das Abtasten mit Ersetzen bestimmte Beobachtungen wiederholen. Jedes Bagging-Element hat die gleiche Chance, in einem neuen Datensatz aufzutauchen. Mit diesen Multi-Datensätzen werden mehrere Modelle parallel trainiert. Es ist der Durchschnitt aller Prognosen aus mehreren Ensemblemodellen. Bei der Bestimmung der Einstufung wird die durch das Abstimmungsverfahren erzielte Stimmenmehrheit berücksichtigt. Bagging reduziert die Variation und passt die Vorhersage auf ein gewünschtes Ergebnis an.

Wie sind die Hauptunterschiede zwischen Bagging und Boosting?

Bagging ist eine Technik zum Reduzieren der Vorhersagevarianz, indem zusätzliche Daten für das Training aus einem Datensatz erzeugt werden, indem Wiederholungen mit Kombinationen kombiniert werden, um mehrere Sätze der ursprünglichen Daten zu erstellen. Boosting ist eine iterative Strategie zum Anpassen der Gewichtung einer Beobachtung basierend auf der vorherigen Klassifizierung. Es versucht, das Gewicht einer Beobachtung zu erhöhen, wenn sie fälschlicherweise kategorisiert wurde. Boosting erstellt im Allgemeinen gute Vorhersagemodelle.

Was sind die Gemeinsamkeiten zwischen Bagging und Boosting?

Bagging und Boosting sind Ensemble-Strategien, die darauf abzielen, N Lernende aus einem einzigen Lernenden zu erzeugen. Sie nehmen nach dem Zufallsprinzip Stichproben und erstellen viele Trainingsdatensätze. Sie kommen zu ihrer endgültigen Entscheidung, indem sie die Stimmen der N Lernenden mitteln oder den Stimmenrang der Mehrheit von ihnen auswählen. Sie reduzieren die Varianz und erhöhen die Stabilität bei gleichzeitiger Reduzierung von Fehlern.