5 Arten von Klassifizierungsalgorithmen im maschinellen Lernen [2022]

Veröffentlicht: 2021-01-02

Inhaltsverzeichnis

Einführung

Maschinelles Lernen ist eines der wichtigsten Themen der Künstlichen Intelligenz. Es ist weiter unterteilt in überwachtes und nicht überwachtes Lernen, das sich auf gekennzeichnete und nicht gekennzeichnete Datenanalyse oder Datenvorhersage beziehen kann. Beim überwachten Lernen haben wir zwei weitere Arten von Geschäftsproblemen, die Regression und Klassifizierung genannt werden.

Die Klassifizierung ist ein maschineller Lernalgorithmus, bei dem wir die gekennzeichneten Daten als Eingabe erhalten und die Ausgabe in einer Klasse vorhersagen müssen. Wenn es zwei Klassen gibt, spricht man von einer binären Klassifizierung. Bei mehr als zwei Klassen spricht man von einer Mehrklassenklassifizierung. In realen Szenarien sehen wir tendenziell beide Arten der Klassifizierung.

In diesem Artikel werden wir einige Arten von Klassifikationsalgorithmen zusammen mit ihren Vor- und Nachteilen untersuchen. Es gibt so viele Klassifizierungsalgorithmen, aber konzentrieren wir uns auf die folgenden 5 Algorithmen:

Logistische Regression
K Nächster Nachbar
Entscheidungsbäume
Zufälliger Wald
Support-Vektor-Maschinen

1. Logistische Regression

Auch wenn der Name Regression vermuten lässt, handelt es sich um einen Klassifikationsalgorithmus. Die logistische Regression ist eine statistische Methode zur Klassifizierung von Daten, bei der es eine oder mehrere unabhängige Variablen oder Merkmale gibt, die ein Ergebnis bestimmen, das mit einer Variablen (TARGET) gemessen wird, die zwei oder mehr Klassen hat. Sein Hauptziel ist es, das am besten passende Modell zu finden, um die Beziehung zwischen der Zielvariablen und den unabhängigen Variablen zu beschreiben.

Vorteile

1) Einfach zu implementieren, zu interpretieren und effizient zu trainieren, da es keine Annahmen trifft und schnell beim Klassifizieren ist.

2) Kann für die Mehrklassenklassifizierung verwendet werden.

3) Es ist weniger anfällig für eine Überanpassung, passt jedoch in hochdimensionalen Datensätzen über.

Nachteile

1) Überanpassungen, wenn Beobachtungen kleiner sind als Merkmale.

2) Funktioniert nur mit diskreten Funktionen.

3) Nichtlineare Probleme können nicht gelöst werden.

4) Es ist schwierig, komplexe Muster zu lernen, und normalerweise übertreffen neuronale Netze sie.

2. K Nächster Nachbar

Der K-nächste-Nachbarn-Algorithmus (KNN) verwendet die Technik „Merkmalsähnlichkeit“ oder „nächste Nachbarn“, um den Cluster vorherzusagen, in den ein neuer Datenpunkt fällt. Nachfolgend sind die wenigen Schritte aufgeführt, anhand derer wir die Funktionsweise dieses Algorithmus besser verstehen können

Schritt 1 – Für die Implementierung eines beliebigen Algorithmus im maschinellen Lernen benötigen wir einen bereinigten Datensatz, der für die Modellierung bereit ist. Nehmen wir an, wir haben bereits einen bereinigten Datensatz, der in einen Trainings- und einen Testdatensatz aufgeteilt wurde.

Schritt 2 – Da wir die Datensätze bereits bereit haben, müssen wir den Wert von K (ganzzahlig) wählen, der uns sagt, wie viele nächste Datenpunkte wir berücksichtigen müssen, um den Algorithmus zu implementieren. Wie man den k-Wert bestimmt, erfahren wir im weiteren Verlauf des Artikels.

Schritt 3 – Dieser Schritt ist ein iterativer Schritt und muss für jeden Datenpunkt im Datensatz angewendet werden

Berechnen Sie den Abstand zwischen Testdaten und jeder Zeile von Trainingsdaten mithilfe einer der Entfernungsmetriken
Euklidische Entfernung
Manhattan-Distanz
Minkowski-Distanz
Hamming-Distanz.

Viele Data Scientists neigen dazu, die euklidische Distanz zu verwenden, aber wir können die Bedeutung jeder einzelnen in der späteren Phase dieses Artikels kennenlernen.

Wir müssen die Daten basierend auf der Entfernungsmetrik sortieren, die wir im obigen Schritt verwendet haben.

Wählen Sie die obersten K Zeilen in den transformierten sortierten Daten aus.

Dann weist es dem Testpunkt eine Klasse basierend auf der häufigsten Klasse dieser Zeilen zu.

Schritt 4 – Ende

Vorteile

Einfach zu bedienen, zu verstehen und zu interpretieren.
Schnelle Berechnungszeit.
Keine Annahmen über Daten.
Hohe Genauigkeit der Vorhersagen.
Vielseitig – Kann sowohl für Klassifikations- als auch für Regressionsgeschäftsprobleme verwendet werden.
Kann auch für Mehrklassenprobleme verwendet werden.
Wir haben nur einen Hyper-Parameter, den wir im Hyperparameter-Tuning-Schritt anpassen müssen.

Nachteile

Rechenintensiv und erfordert viel Speicher, da der Algorithmus alle Trainingsdaten speichert.
Der Algorithmus wird langsamer, wenn die Variablen zunehmen.
Es ist sehr empfindlich gegenüber irrelevanten Merkmalen.
Fluch der Dimensionalität.
Wählen Sie den optimalen Wert von K.
Ein Datensatz mit unausgeglichener Klasse verursacht Probleme.
Fehlende Werte in den Daten verursachen ebenfalls Probleme.

Lesen Sie: Projektideen für maschinelles Lernen

3. Entscheidungsbäume

Entscheidungsbäume können sowohl für die Klassifizierung als auch für die Regression verwendet werden, da sie sowohl numerische als auch kategoriale Daten verarbeiten können. Es zerlegt den Datensatz in immer kleinere Teilmengen oder Knoten, während der Baum entwickelt wird. Der Entscheidungsbaum hat eine Ausgabe mit Entscheidungs- und Blattknoten, wobei ein Entscheidungsknoten zwei oder mehr Zweige hat, während ein Blattknoten eine Entscheidung darstellt. Der oberste Knoten, der dem besten Prädiktor entspricht, wird Wurzelknoten genannt.

Vorteile

Einfach zu verstehen
Einfache Visualisierung
Weniger Dateninterpretation
Verarbeitet sowohl numerische als auch kategoriale Daten.

Nachteile

Verallgemeinern Sie manchmal nicht gut
Instabil gegenüber Änderungen der Eingabedaten

4. Zufällige Wälder

Random Forests sind eine Ensemble-Lernmethode, die für die Klassifizierung und Regression verwendet werden kann. Es funktioniert, indem es mehrere Entscheidungsbäume erstellt und die Ergebnisse ausgibt, indem es den Mittelwert aller Entscheidungsbäume in Regressions- oder Mehrheitsentscheidungen bei Klassifizierungsproblemen nimmt. Dass eine Gruppe von Bäumen als Wald bezeichnet wird, können Sie schon am Namen erkennen.

Vorteile

Kann mit großen Datensätzen umgehen.
Gibt die Wichtigkeit von Variablen aus.
Kann mit fehlenden Werten umgehen.

Nachteile

Es handelt sich um einen Black-Box-Algorithmus.
Langsame Echtzeitvorhersage und komplexe Algorithmen.

5. Unterstützung von Vektormaschinen

Die Support-Vektor-Maschine ist eine Darstellung des Datensatzes als Punkte im Raum, die durch eine klare Lücke oder Linie, die so weit wie möglich ist, in Kategorien unterteilt sind. Die neuen Datenpunkte werden nun in denselben Raum abgebildet und einer Kategorie zugeordnet, basierend darauf, auf welcher Seite der Linie oder Trennung sie liegen.

Vorteile

Funktioniert am besten in hochdimensionalen Räumen.
Verwendet eine Teilmenge von Trainingsdatenpunkten in der Entscheidungsfunktion, was es zu einem speichereffizienten Algorithmus macht.

Nachteile

Liefert keine Wahrscheinlichkeitsschätzungen.
Kann Wahrscheinlichkeitsschätzungen durch Kreuzvalidierung berechnen, aber es ist zeitaufwändig.

Lesen Sie auch: Karriere im maschinellen Lernen

Fazit

In diesem Artikel haben wir die 5 Klassifizierungsalgorithmen, ihre kurzen Definitionen, Vor- und Nachteile besprochen. Dies sind nur einige Algorithmen, die wir behandelt haben, aber es gibt wertvollere Algorithmen wie Naive Bayes, Neural Networks, Ordered Logistic Regression. Man kann nicht sagen, welcher Algorithmus für welches Problem gut funktioniert, daher empfiehlt es sich, einige auszuprobieren und das endgültige Modell basierend auf Bewertungsmetriken auszuwählen.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Was ist der Hauptzweck hinter der Verwendung der logistischen Regression?

Die logistische Regression wird hauptsächlich in statistischen Wahrscheinlichkeiten verwendet. Es verwendet eine logistische Regressionsgleichung, um die Beziehung zwischen den abhängigen Variablen und den unabhängigen Variablen zu verstehen, die in den gegebenen Daten vorhanden sind. Dies geschieht durch Abschätzung der einzelnen Ereigniswahrscheinlichkeiten. Ein logistisches Regressionsmodell ist dem linearen Regressionsmodell sehr ähnlich, seine Verwendung wird jedoch bevorzugt, wenn die in den Daten angegebene abhängige Variable dichotom ist.

Wie unterscheidet sich SVM von der logistischen Regression?

Obwohl SVM genauer ist als logistische Regressionsmodelle, ist es komplex in der Anwendung und daher nicht benutzerfreundlich. Bei großen Datenmengen wird der Einsatz von SVM nicht bevorzugt. Während SVM verwendet wird, um sowohl Regressions- als auch Klassifizierungsprobleme zu lösen, löst die logistische Regression nur Klassifizierungsprobleme gut. Anders als bei SVM kommt es bei der Verwendung der logistischen Regression häufig zu einer Überanpassung. Außerdem ist die logistische Regression im Vergleich zu Support-Vektor-Maschinen anfälliger für Ausreißer.

Ist ein Regressionsbaum eine Art Entscheidungsbaum?

Ja, Regressionsbäume sind grundsätzlich Entscheidungsbäume, die für Regressionsaufgaben verwendet werden. Regressionsmodelle werden verwendet, um die Beziehung zwischen abhängigen Variablen und den unabhängigen Variablen zu verstehen, die tatsächlich durch die Aufteilung des anfänglich gegebenen Datensatzes entstanden sind. Regressionsbäume können nur verwendet werden, wenn der Entscheidungsbaum aus einer kontinuierlichen Zielvariablen besteht.