Regression vs. Klassifizierung beim maschinellen Lernen: Unterschied zwischen Regression und Klassifizierung

Veröffentlicht: 2020-11-12

Inhaltsverzeichnis

Einführung

Bei der Lösung von Data-Science-Problemen ist der richtige Ansatz von entscheidender Bedeutung und kann oft den Unterschied zwischen Durcheinander und der richtigen Lösung ausmachen. Am Anfang neigen Data Scientists oft dazu, beides zu verwechseln – sie sind nicht in der Lage, die kleinen technischen Details herauszufinden, die wichtig sind, um das Problem mit dem richtigen Ansatz anzugehen.

Selbst bei erfahrenen und erfahrenen Datenwissenschaftlern können die Unterschiede leicht verwirrend sein, was es schwierig macht, den richtigen Ansatz anzuwenden. In diesem Diskurs tauchen wir tiefer in die Unterschiede und Gemeinsamkeiten mit den beiden wichtigen Data-Science-Algorithmen ein – Klassifikation und Regression.

Diese beiden Ansätze sollten wesentliche Werkzeuge im Arsenal eines jeden Datenwissenschaftlers bei der Lösung von Geschäftsproblemen sein. Daher ist ein entscheidendes Verständnis von entscheidender Bedeutung, um die richtigen Modelle auszuwählen, die entsprechende Feinabstimmung vorzunehmen und die richtige Lösung bereitzustellen, die Ihrem Unternehmen Auftrieb verleiht.

Lesen Sie: Projektideen für maschinelles Lernen

Regression vs. Klassifizierung

Erstens die wichtige Ähnlichkeit – sowohl Regression als auch Klassifizierung werden unter überwachten maschinellen Lernansätzen kategorisiert. Was ist ein überwachter maschineller Lernansatz? Es handelt sich um eine Reihe von Algorithmen für maschinelles Lernen, die das Modell mithilfe von Datensätzen aus der realen Welt (sogenannte Trainingsdatensätze) trainieren, um Vorhersagen zu treffen.

Die Daten, die zum Trainieren des Modells verwendet werden, müssen gut gekennzeichnet und sauber sein; Das Modell lernt aus den Trainingsdaten die Beziehung zwischen den unabhängigen Variablen und der Prädiktorvariablen. Dies steht im Gegensatz zum Ansatz des unbeaufsichtigten maschinellen Lernens, der das Modell auffordert, Muster innerhalb der Daten selbst zu identifizieren und somit die Zuordnungsfunktion zu finden, indem es Muster untersucht, die dem Datensatz innewohnen.

Ein überwachter maschineller Lernansatz versucht, die Zuordnungsfunktion y = f(x) zu lösen, wobei sich x auf die Eingabevariablen bezieht und y die Zuordnungsfunktion ist. Durch das Lösen der Mapping-Funktion lässt es sich schnell und bequem auf den realen Datensatz übertragen.

Sowohl die Klassifizierungs- als auch die Regressionsfunktionen können dies tun, ebenso wie jeder andere überwachte maschinelle Lernansatz. Der wesentliche Unterschied und die Regressionsansätze bestehen jedoch darin, dass die Ausgabevariable „y“ bei einer Regression numerisch und kontinuierlich ist (kann eine Ganzzahl oder ein Gleitkommawert sein) , im Klassifizierungsalgorithmus die Ausgabevariable „y“ diskret ist und kategorisch.

Wenn Sie also Variablen wie Gehalt, Lebenserwartung, Abwanderungswahrscheinlichkeit vorhersagen, dann sind diese Variablen numerisch und kontinuierlich.

Angenommen , ein Finanzinstitut möchte ein Profil seiner Kreditbewerber erstellen, um die Wahrscheinlichkeit ihres Zahlungsausfalls abzuschätzen. Der Datenwissenschaftler kann das Problem auf zwei Arten angehen – er kann entweder jedem Kreditantragsteller eine Wahrscheinlichkeit zuweisen (die ein Bereich kontinuierlicher Gleitkommazahlen zwischen 0 und 1 sein wird) oder er gibt einfach einen Satz binärer Ausgaben aus. entsprechend PASS/FAIL.

Beide Ansätze verwenden die gleichen Eingabevariablen – wie z. B. Kredithistorie des Bewerbers, Gehaltsinformationen, Demografie, Alter, makroökonomische Bedingungen usw. Der Unterschied zwischen den beiden Ansätzen besteht jedoch darin, dass der erstere jeden Bewerber bewertet, was nützlich sein kann machen Sie relativistische Berechnungen, wie viel wahrscheinlicher eine Person gegen eine andere ist.

Die Ausgabe kann auch für andere Analysen verwendet werden. Im letzteren Fall klassifiziert der Algorithmus jedoch den gesamten Datensatz der individuellen Profile entweder in Ja oder Nein, was dann verwendet werden kann, um zu beurteilen, ob eine Kreditvergabe sicher ist. Beachten Sie, dass sowohl die Ja- als auch die Nein-Klasse innerhalb der Unterklasse beträchtliche Unterschiede aufweisen können.

Aber hier mit dem Klassifizierungsansatz sind wir nicht daran interessiert, die Variation innerhalb jeder Untergruppe herauszufinden. Die Klassifizierung kann für andere Zwecke verwendet werden, beispielsweise um zu klassifizieren, ob die eingehende E-Mail Spam oder Nicht-Spam ist.

Andererseits erfordert die Wettervorhersage (das Wetter kann eine Reihe kontinuierlicher Werte annehmen) typischerweise einen Regressionsansatz. Wenn wir stattdessen nur daran interessiert wären, vorherzusagen, ob es regnen würde oder nicht, dann könnte derselbe Wetterdatensatz besser in das Klassifizierungssystem aufgenommen werden. Wie wir also sehen können, bestimmt der Anwendungsfall, welcher Algorithmus für die Verwendung besser geeignet ist.

Regressionsalgorithmen bestehen unter anderem aus linearer Regression, multivariater Regression, Support-Vektor-Modellen und Regressionsbaum. Der Klassifizierungsansatz verwendet unter anderem Entscheidungsbäume, Naive Bayes, Logistikregression.

Wenn Sie den Unterschied zwischen diesen Ansätzen und Algorithmen verstehen, können Sie besser den richtigen für Ihre geschäftsspezifischen Anwendungsfälle auswählen und anwenden – und so schnell zur richtigen Lösung gelangen.

Typen von Klassifizierungs- und Regressionsalgorithmen

Lassen Sie uns in die Tiefe gehen und jeden dieser Algorithmustypen verstehen, die bei Regression und Klassifizierung verwendet werden.

Lineare Regression – Bei der linearen Regression wird die Beziehung zwischen zwei Variablen geschätzt, indem eine gerade, am besten passende Linie gezeichnet wird. Es werden andere Messungen benötigt, um die Stärke der geplotteten Best-Fit-Linie zu messen, wie unter anderem die Stärke der Anpassung, Varianz, Standardabweichung, r-Quadrat-Wert. Erfahren Sie mehr über Regressionsmodelle in Machine Learning.

Polynomiale Regression – In polynomialen Regressionsmodellen werden Beziehungen zwischen „mehreren“ Eingabevariablen und der Prädiktor- oder „Ausgabe“-Variablen gemessen. Erfahren Sie mehr über die Regressionsmodelle.

Entscheidungsbaum-Algorithmus – Beim Entscheidungsbaum-Algorithmus wird der Datensatz mit Hilfe eines Entscheidungsbaums klassifiziert – wobei jeder Knoten des Baums ein Testfall ist und jeder Zweig, der an jedem Knoten des Baums entsteht, einem möglichen Wert entspricht des Attributs.

Lesen Sie: Wie erstelle ich einen perfekten Entscheidungsbaum?

Random Forest-Algorithmus – Random Forest wird, wie der Name schon sagt, durch Addition mehrerer Entscheidungsbaumalgorithmen aufgebaut. Das Modell aggregiert dann die Ausgabe der verschiedenen Entscheidungsbäume und erstellt die endgültige Vorhersage, die durch Mehrheitsvotum der einzelnen Entscheidungsbäume erfolgt.

Die vom Entscheidungsbaum gelieferte endgültige Ausgabe ist genauer als diejenige, die von einem der einzelnen Entscheidungsbäume geliefert wird. „Random Forests neigen häufig zu Overfitting-Problemen, die jedoch durch Kreuzvalidierung und andere Methoden feinabgestimmt werden können

K nächster Nachbar – K nächster Nachbar ist ein robuster Klassifizierungsalgorithmus, der nach dem Prinzip arbeitet, dass ähnliche Dinge in unmittelbarer Nähe zueinander bleiben. Wenn die neue Variable in den Vorhersagealgorithmus eingefügt wird, versucht sie, sie basierend auf ihrer Nähe zu den Datensätzen einer Gruppe zuzuordnen. Erfahren Sie mehr über KNN.

Fazit

Als Datenwissenschaftler müssen Sie ein grundlegendes und wesentliches Verständnis der verschiedenen Klassifizierungs- und Regressionsansätze haben. Die beteiligten Techniken helfen Ihnen als Datenwissenschaftler, die richtigen Tools anzuwenden, um eine geeignete Lösung zu finden, von der Sie profitieren deine Sache.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Führen Sie die KI-gesteuerte technologische Revolution an

PG DIPLOM IN MASCHINELLEM LERNEN UND KÜNSTLICHER INTELLIGENZ

Erfahren Sie mehr