Regression im Data Mining: Verschiedene Arten von Regressionstechniken [2022]

Veröffentlicht: 2021-01-01

Überwachtes Lernen ist ein Lernen, bei dem Sie den maschinellen Lernalgorithmus mit bereits gekennzeichneten Daten trainieren. Damit ist für alle Trainingsdaten bereits die richtige Antwort bekannt. Nach dem Training wird es mit einem neuen Satz unbekannter Daten versorgt, die der überwachte Lernalgorithmus analysiert und dann auf der Grundlage der markierten Trainingsdaten ein korrektes Ergebnis liefert.

Beim unüberwachten Lernen wird der Algorithmus mit Informationen trainiert, für die das richtige Etikett nicht bekannt ist. Hier muss die Maschine grundsätzlich Informationen nach den verschiedenen Mustern oder beliebigen Zusammenhängen zusammenstellen, ohne vorher an irgendwelchen Daten zu trainieren.

Regression ist eine Form einer überwachten maschinellen Lerntechnik, die versucht, jedes Attribut mit kontinuierlichem Wert vorherzusagen. Es analysiert die Beziehung zwischen einer Zielvariablen (abhängig) und ihrer Prädiktorvariablen (unabhängig). Die Regression ist ein wichtiges Werkzeug für die Datenanalyse, das für die Zeitreihenmodellierung, Prognose und andere Zwecke verwendet werden kann.

Bei der Regression wird eine Kurve oder eine gerade Linie an verschiedene Datenpunkte angepasst. Dies geschieht so, dass die Abstände zwischen der Kurve und den Datenpunkten möglichst gering ausfallen.

Obwohl lineare und logistische Regressionen die beliebtesten Typen sind, gibt es viele andere Regressionstypen, die abhängig von ihrer Leistung auf einen bestimmten Datensatz angewendet werden können. Diese unterschiedlichen Typen unterscheiden sich aufgrund der Anzahl und Art aller abhängigen Variablen und auch aufgrund der Art der gebildeten Regressionskurve.

Check out: Unterschied zwischen Data Science und Data Mining

Inhaltsverzeichnis

Lineare Regression

Die lineare Regression bildet eine Beziehung zwischen der (abhängigen) Zielvariablen und einer oder mehreren unabhängigen Variablen unter Verwendung einer geraden Linie der besten Anpassung.

Es wird durch die Gleichung dargestellt:

Y = a + b*X + e ,

wobei a der Schnittpunkt, b die Steigung der Regressionsgerade und e der Fehler ist. X und Y sind die Prädiktor- bzw. Zielvariablen. Wenn X aus mehr als einer Variablen (oder Merkmalen) besteht, wird dies als multiple lineare Regression bezeichnet.

Die Best-Fit-Gerade wird mit der Least-Squared-Methode ermittelt. Dieses Verfahren minimiert die Summe der Quadrate der Abweichungen von jedem der Datenpunkte zur Regressionslinie. Die negativen und positiven Abstände heben sich hier nicht auf, da alle Abweichungen quadriert werden.

Polynomiale Regression

Bei der Polynomregression ist die Potenz der unabhängigen Variablen in der Regressionsgleichung größer als 1. Unten ist ein Beispiel:

Y = a + b*X^2

Bei dieser speziellen Regression ist die Linie der besten Anpassung keine gerade Linie wie bei der linearen Regression. Es ist jedoch eine Kurve, die an alle Datenpunkte angepasst ist.

Die Implementierung einer polynomialen Regression kann zu einer Überanpassung führen, wenn Sie versucht sind, Ihre Fehler zu reduzieren, indem Sie die Kurve komplexer machen. Versuchen Sie daher immer, die Kurve durch Verallgemeinerung an das Problem anzupassen.

Logistische Regression

Die logistische Regression wird verwendet, wenn die abhängige Variable binärer Natur ist (Wahr oder Falsch, 0 oder 1, Erfolg oder Misserfolg). Hier reicht der Zielwert (Y) von 0 bis 1 und wird allgemein für Klassifizierungsprobleme verwendet. Bei der logistischen Regression müssen die abhängigen und unabhängigen Variablen keine lineare Beziehung aufweisen, wie dies bei der linearen Regression der Fall ist.

Lesen Sie : Data-Mining-Projektideen

Ridge-Regression

Ridge Regression ist eine Technik zur Analyse multipler Regressionsdaten, bei denen das Problem der Multikollinearität auftritt. Multikollinearität ist das Vorhandensein einer nahezu linearen Korrelation zwischen zwei beliebigen unabhängigen Variablen.

Dies tritt auf, wenn die Schätzungen der kleinsten Quadrate eine geringe Verzerrung, aber eine hohe Varianz aufweisen, sodass sie sich stark vom wahren Wert unterscheiden. Durch Hinzufügen eines gewissen Bias zum geschätzten Regressionswert werden die Standardfehler durch Implementieren der Ridge-Regression stark reduziert.

Lasso-Regression

A S S O Der Begriff „LASSO“ steht für Least S Selection Es ist eine Art lineare Regression das Schrumpfung verwendet . Dabei werden alle Datenpunkte auf einen zentralen Punkt, auch Mittelwert genannt, heruntergebracht (oder geschrumpft). Das Lasso-Verfahren eignet sich am besten für einfache und spärliche Modelle, die vergleichsweise weniger Parameter haben. Diese Art der Regression eignet sich auch gut für Modelle, die unter Multikollinearität leiden (wie ein Grat).

Erwerben Sie eine Data-Science-Zertifizierung von den besten Universitäten der Welt. Nehmen Sie an unseren Executive PG-Programmen, Advanced Certificate Programs oder Masters-Programmen teil, um Ihre Karriere zu beschleunigen.

Fazit

Mit der Regressionsanalyse können Sie im Wesentlichen die Auswirkungen verschiedener Arten von Merkmalsvariablen vergleichen, die auf einer Vielzahl von Skalen gemessen werden. Beispielsweise die Vorhersage von Hauspreisen basierend auf Gesamtfläche, Ort, Alter, Möbeln usw. Diese Ergebnisse kommen den Marktforschern oder Datenanalysten in hohem Maße zugute, um nutzlose Merkmale zu eliminieren und die besten Merkmale zu bewerten, um genaue Vorhersagemodelle zu erstellen.

Wenn Sie neugierig sind, mehr über Data Science zu erfahren, schauen Sie sich das PG Diploma in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Was ist lineare Regression?

Die lineare Regression stellt die Beziehung zwischen der Zielvariablen oder abhängigen Variablen und einer oder mehreren unabhängigen Variablen her. Wenn wir mehr als einen Prädiktor in unserer Gleichung haben, wird es zu einer multiplen Regression.

Die Methode der kleinsten Quadrate gilt als die beste Methode, um die am besten passende Linie zu erhalten, da diese Methode die Summe der Quadrate der Abweichungen von jedem der Datenpunkte zur Regressionslinie minimiert.

Was sind Regressionstechniken und warum werden sie benötigt?

Dies sind die Techniken zum Schätzen oder Vorhersagen von Beziehungen zwischen Variablen. Die Beziehung wird zwischen zwei Variablen gefunden, eine ist das Ziel und die andere die Prädiktorvariable (auch bekannt als x- und y-Variablen).

Verschiedene Techniken wie linear, logistisch, schrittweise, polynomisch, Lasso und Grat können verwendet werden, um diese Beziehung zu identifizieren. Dies geschieht, um Prognosen mithilfe von Datensammlungen und dem Zeichnen von Diagrammen zwischen ihnen zu erstellen.

Wie unterscheidet sich die lineare Regressionstechnik von der logistischen Regressionstechnik?

Der Unterschied zwischen diesen beiden Regressionsverfahren liegt in der Art der abhängigen Variablen. Wenn die abhängige Variable stetig ist, wird die lineare Regression verwendet, während wenn die abhängige Variable kategorial ist, die logistische Regression verwendet wird.

Wie der Name schon sagt, wird bei der Lineartechnik eine lineare oder gerade Linie identifiziert. Wohingegen in der Logistiktechnik eine S-Kurve identifiziert wird, da die unabhängige Variable ein Polynom ist. Die Ergebnisse bei der linearen Methode sind kontinuierlich, während die Ergebnisse bei der logistischen Methode in Kategorien wie Wahr oder Falsch, 0 oder 1 usw. vorliegen können.