Regularisierung im maschinellen Lernen: Wie lässt sich Overfitting vermeiden?
Veröffentlicht: 2020-02-17Beim maschinellen Lernen werden Computer so ausgestattet, dass sie bestimmte Aufgaben ohne explizite Anweisungen ausführen. Die Systeme sind also so programmiert, dass sie automatisch aus Erfahrungen lernen und sich verbessern. Datenwissenschaftler verwenden in der Regel Regularisierung beim maschinellen Lernen , um ihre Modelle im Trainingsprozess zu optimieren. Lassen Sie uns dieses Konzept im Detail verstehen.
Inhaltsverzeichnis
Regularisierung vermeidet Überanpassung
Durch die Regularisierung beim maschinellen Lernen können Sie eine Überanpassung Ihres Trainingsmodells vermeiden. Eine Überanpassung tritt auf, wenn Ihr Modell die willkürlichen Daten in Ihrem Trainingsdatensatz erfasst. Solche Datenpunkte, die nicht die Eigenschaften Ihrer Daten haben, machen Ihr Modell „verrauscht“. Dieses Rauschen kann Ihr Modell flexibler machen, aber es kann Herausforderungen mit geringer Genauigkeit darstellen.
Stellen Sie sich ein Klassenzimmer mit 10 Schülern und einer gleichen Anzahl von Mädchen und Jungen vor. Die Gesamtnote der Klasse in der Jahresprüfung beträgt 70. Die durchschnittliche Punktzahl der Studentinnen liegt bei 60, die der Studenten bei 80. Basierend auf diesen bisherigen Noten wollen wir die zukünftigen Noten der Studenten vorhersagen. Vorhersagen können auf folgende Weise getroffen werden:
- Under Fit: Die gesamte Klasse erhält 70 Punkte
- Optimale Passform: Dies könnte ein vereinfachtes Modell sein, das die Punktzahl von Mädchen mit 60 und Jungen mit 80 vorhersagt (wie beim letzten Mal).
- Over Fit: Dieses Modell kann ein unabhängiges Attribut verwenden, z. B. die Rollennummer, um vorherzusagen, dass die Schüler genau die gleichen Noten wie im letzten Jahr erzielen werden
Die Regularisierung ist eine Form der Regression, die die Fehlerfunktion durch Hinzufügen eines weiteren Strafterms anpasst. Dieser zusätzliche Term hält die Koeffizienten davon ab, extreme Werte anzunehmen, wodurch die übermäßig schwankende Funktion ausgeglichen wird.
Jeder Experte für maschinelles Lernen würde sich bemühen, seine Modelle genau und fehlerfrei zu machen. Und der Schlüssel zum Erreichen dieses Ziels liegt in der Beherrschung des Kompromisses zwischen Verzerrung und Varianz. Lesen Sie weiter, um sich ein klares Bild davon zu machen, was das bedeutet.
Bias und Varianz ausgleichen
Der erwartete Testfehler kann minimiert werden, indem ein Verfahren gefunden wird, das die richtige „Bias-Varianz“-Balance erreicht. Mit anderen Worten, Ihre gewählte statistische Lernmethode sollte das Modell optimieren, indem sie gleichzeitig eine geringe Varianz und eine geringe Verzerrung realisiert. Ein Modell mit hoher Varianz ist überangepasst, und eine hohe Verzerrung führt zu einem unterangepassten Modell.

Die Kreuzvalidierung bietet ein weiteres Mittel zur Vermeidung von Overfitting. Es prüft, ob Ihr Modell die richtigen Muster aus dem Datensatz aufnimmt, und schätzt den Fehler über Ihrem Testsatz. Diese Methode validiert also im Grunde die Stabilität Ihres Modells. Darüber hinaus bestimmt es die Parameter, die für Ihr spezielles Modell am besten funktionieren.
Erhöhung der Interpretierbarkeit des Modells
Das Ziel besteht nicht nur darin, einen Nullfehler für den Trainingssatz zu erhalten, sondern auch korrekte Zielwerte aus dem Testdatensatz vorherzusagen. Wir benötigen also eine „abgestimmte“ Funktion, die die Komplexität dieses Prozesses reduziert.
Erläuterung der R egularisierung im maschinellen Lernen
Die Regularisierung ist eine Form der eingeschränkten Regression, die funktioniert, indem die Koeffizientenschätzungen gegen Null verkleinert werden. Auf diese Weise begrenzt es die Fähigkeit von Modellen, aus dem Rauschen zu lernen.
Schauen wir uns diese lineare Regressionsgleichung an:
Y= β0+β1X1+β2X2+…..+βpXp
Hier bezeichnet β die Koeffizientenschätzungen für verschiedene durch (X) dargestellte Prädiktoren. Und Y ist die gelernte Relation.
Da diese Funktion selbst auf Fehler stoßen kann, fügen wir eine Fehlerfunktion hinzu, um die gelernten Schätzungen zu regularisieren. Wir wollen den Fehler in diesem Fall minimieren, sodass wir ihn auch als Verlustfunktion bezeichnen können. So sieht diese Verlustfunktion oder Residual Sum of Squares (RSS) aus:
Daher verwenden Data Scientists die Regularisierung, um die Vorhersagefunktion anzupassen. Regularisierungstechniken werden auch als Schrumpfungsverfahren oder Gewichtszerfall bezeichnet. Lassen Sie uns einige von ihnen im Detail verstehen.
Ridge-Regularisierung
Bei der Ridge-Regression wird die Verlustfunktion mit einer Schrumpfungsgröße modifiziert, die der Summierung der quadrierten Werte von β entspricht. Und der Wert von λ entscheidet, wie stark das Modell bestraft würde.
Die Koeffizientenschätzungen in der Ridge-Regression werden als L2-Norm bezeichnet. Diese Regularisierungstechnik würde Ihnen zu Hilfe kommen, wenn die unabhängigen Variablen in Ihren Daten stark korreliert sind.

Lasso-Regularisierung
Bei der Lasso-Technik wird eine Strafe, die gleich der Summe der Absolutwerte von β (Modul von β) ist, zu der Fehlerfunktion hinzugefügt. Er wird weiter mit dem Parameter λ multipliziert, der die Stärke der Strafe steuert. Nur die hohen Koeffizienten werden bei diesem Verfahren bestraft.
Die von Lasso erstellten Koeffizientenschätzungen werden als L1-Norm bezeichnet. Diese Methode ist besonders vorteilhaft, wenn es sich um eine kleine Anzahl von Beobachtungen mit einer großen Anzahl von Merkmalen handelt.
Um die obigen Ansätze zu vereinfachen, betrachten Sie eine Konstante s, die für jeden Wert von λ existiert. Jetzt lösen wir in der L2-Regularisierung eine Gleichung, bei der die Summe der Quadrate der Koeffizienten kleiner oder gleich s ist. Während bei der L1-Regularisierung die Summe des Koeffizientenmoduls kleiner oder gleich s sein sollte.
Lesen Sie: Maschinelles Lernen vs. neuronale Netze
Beide oben genannten Methoden versuchen sicherzustellen, dass das Regressionsmodell keine unnötigen Attribute verbraucht. Aus diesem Grund werden Ridge Regression und Lasso auch als Constraint-Funktionen bezeichnet.
RSS und Prädiktoren von Constraint-Funktionen
Mit Hilfe der vorherigen Erläuterungen können die Verlustfunktionen (RSS) für Ridge Regression und Lasso durch β1² + β2² ≤ s und |β1| gegeben werden + |β2| ≤ s. β1² + β2² ≤ s würde einen Kreis bilden, und RSS wäre der kleinste für alle darin liegenden Punkte. Was die Lasso-Funktion betrifft, so wäre der RSS der niedrigste für alle Punkte, die innerhalb der Raute liegen, die durch |β1| gegeben ist + |β2| ≤ s.
Die Ridge-Regression verkleinert die Koeffizientenschätzungen für die am wenigsten wichtigen Prädiktorvariablen, eliminiert sie jedoch nicht. Daher kann das endgültige Modell aufgrund von Schätzungen ungleich Null alle Prädiktoren enthalten. Andererseits kann Lasso einige Koeffizienten dazu zwingen, genau Null zu sein, insbesondere wenn λ groß ist.

Lesen Sie: Python-Bibliotheken für maschinelles Lernen
Wie Regularisierung ein Gleichgewicht erreicht
Mit einem standardmäßigen Modell der kleinsten Quadrate ist eine gewisse Varianz verbunden. Regularisierungstechniken verringern die Varianz des Modells, ohne seine quadratische Verzerrung signifikant zu erhöhen. Und der Wert des Abstimmungsparameters λ orchestriert dieses Gleichgewicht, ohne die kritischen Eigenschaften der Daten zu eliminieren. Die Strafe hat keine Wirkung, wenn der Wert von λ Null ist, was bei einer gewöhnlichen Regression der kleinsten Quadrate der Fall ist.
Die Varianz sinkt nur, wenn der Wert von λ steigt. Dies geschieht jedoch nur bis zu einem bestimmten Punkt, ab dem die Vorspannung zu steigen beginnt. Daher ist die Auswahl des Werts dieses Schrumpfungsfaktors einer der kritischsten Schritte bei der Regularisierung.
Fazit
In diesem Artikel haben wir die Regularisierung beim maschinellen Lernen und ihre Vorteile kennengelernt und Methoden wie Ridge-Regression und Lasso untersucht. Schließlich haben wir verstanden, wie Regularisierungstechniken dazu beitragen, die Genauigkeit von Regressionsmodellen zu verbessern. Wenn Sie gerade erst mit der Regularisierung beginnen, werden diese Ressourcen Ihre Grundlagen klären und Sie ermutigen, diesen ersten Schritt zu tun!
Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.
Was sind Ihre Joboptionen nach dem Erlernen des maschinellen Lernens?
Maschinelles Lernen ist einer der neuesten und vielversprechendsten Karrierewege im Technologiebereich. Da das maschinelle Lernen weiter voranschreitet und sich ausbreitet, eröffnet es neue Beschäftigungsmöglichkeiten für Personen, die eine Karriere in diesem Technologiebereich anstreben. Studenten und Berufstätige, die als Ingenieure für maschinelles Lernen arbeiten möchten, können sich auf lohnende und spannende Lernerfahrungen freuen und natürlich erwarten, Jobs bei Top-Organisationen zu ergattern, die gut bezahlt werden. Angefangen von Data Scientists und Machine Learning Engineers bis hin zu Computerlinguisten und Human-Centered Machine Learning Designern und mehr gibt es viele interessante Jobrollen, die Sie je nach Ihren Fähigkeiten und Erfahrungen annehmen können.
Wie viel Gehalt bezieht ein Machine Learning Engineer pro Jahr?
In Indien kann das durchschnittliche Gehalt eines Junior-Ingenieurs für maschinelles Lernen zwischen etwa 6 und 8,2 Lakhs INR pro Jahr liegen. Aber für Fachleute mit mittlerer Berufserfahrung kann die Vergütung im Durchschnitt zwischen 13 und 15 Lakhs INR oder sogar mehr liegen. Nun hängt das durchschnittliche Jahreseinkommen von Ingenieuren für maschinelles Lernen von einer Vielzahl von Faktoren ab, darunter unter anderem relevante Berufserfahrung, Fähigkeiten, allgemeine Berufserfahrung, Zertifizierungen und sogar der Standort. Ältere Fachleute für maschinelles Lernen können etwa 1 Mrd. INR pro Jahr verdienen.
Was sind die erforderlichen Fähigkeiten für maschinelles Lernen?
Ein grundlegendes Verständnis und ein gewisses Maß an Sicherheit in bestimmten Fächern sind von Vorteil, wenn Sie eine erfolgreiche Karriere im maschinellen Lernen anstreben. Zunächst müssen Sie ein Verständnis für Wahrscheinlichkeit und Statistik haben. Das Erstellen von Modellen für maschinelles Lernen und das Vorhersagen von Ergebnissen erfordert Kenntnisse in Statistik und Wahrscheinlichkeit. Als nächstes sollten Sie mit Programmiersprachen wie Python und R vertraut sein, die beim maschinellen Lernen häufig verwendet werden. Einige Kenntnisse in der Datenmodellierung für die Datenanalyse und ausgeprägte Fähigkeiten im Softwaredesign sind ebenfalls erforderlich, um maschinelles Lernen zu erlernen.