Einführung in den Klassifizierungsalgorithmus: Konzepte und verschiedene Typen

Veröffentlicht: 2020-04-13

Klassifizierungsalgorithmen helfen Ihnen, Ihre Daten in verschiedene Klassen einzuteilen. Genau wie beim Sortieren beim Packen hilft Ihnen ein Klassifikationsalgorithmus beim Klassifizieren von Daten. In diesem Artikel werfen wir einen Blick darauf, was Klassifizierungsalgorithmen sind, welche Arten von Klassifizierungsalgorithmen es gibt, einige grundlegende Konzepte dieses Themas und wie sie funktionieren.

Inhaltsverzeichnis

Was bedeutet Klassifikation?

Um die Zielklasse vorherzusagen, nennen wir diesen Prozess Klassifizierung, wenn wir unseren Trainingsdatensatz verwenden, um Randbedingungen zu erhalten. Es gibt viele Arten von Zielklassen, die Sie erreichen können. Angenommen, Sie möchten anhand der Ihnen vorliegenden Kundendaten vorhersagen, ob Ihre Kunden ein bestimmtes Produkt kaufen würden oder nicht. In diesem Fall wären die Zielklassen entweder „Ja“ oder „Nein“.

Andererseits möchten Sie vielleicht Gemüse nach Gewicht, Größe oder Farbe klassifizieren. In diesem Szenario könnten die verfügbaren Zielklassen Spinat, Tomate, Zwiebel, Kartoffel und Kohl sein. Sie könnten auch eine Geschlechterklassifizierung durchführen, wobei die Zielklassen weiblich und männlich wären.

Lassen Sie uns ein wenig verstehen, wie ein Klassifizierungsalgorithmus funktioniert, indem wir das dritte Beispiel betrachten. Wir können die Haarlänge als Merkmalsparameter beibehalten, obwohl dies nur für dieses Beispiel dient. Wir können unser Modell trainieren, indem wir einen Klassifizierungsalgorithmus verwenden und es Randbedingungen bestimmen lassen, um eine Differenzierung zwischen weiblichem und männlichem Geschlecht durch den gegebenen Merkmalsparameter, dh Haarlänge, durchzuführen.

Grundlegende Konzepte der Klassifikation

Bevor wir mit der weiteren Erörterung von Klassifizierungsalgorithmen beginnen, müssen Sie mit mehreren Definitionen vertraut sein. So vermeiden Sie spätere Verwirrung:

Merkmale

Es ist eine individuell messbare Eigenschaft eines bestimmten Phänomens, das wir jeweils beobachten.

Klassifikatoren

Ein Klassifikator ist ein Algorithmus, der die Eingabedaten eines Modells einer bestimmten Kategorie zuordnet.

Klassifizierungsmodelle

Klassifikationsmodelle müssen die Eingabewerte abschließen, die wir dem Modell während des Trainings geben. Diese Modelle sagen die Kategorien (Klassenbezeichnungen) für die neuen Daten voraus, die wir ihnen bereitstellen.

Multi-Label-Klassifizierung

Bei der Multi-Label-Klassifizierung ordnen wir jede Probe einem Satz von Ziellabels mehrerer Klassen zu. Eine Schultasche könnte zum Beispiel gleichzeitig Bücher, eine Brotdose und Stifte enthalten.

Mehrklassenklassifizierung

Bei der Mehrklassenklassifizierung ordnen wir jede Probe nur einem einzigen Ziellabel zu. Es findet statt, wenn wir mehr als zwei Klassen haben. Beispielsweise könnte ein Auto fahren oder stehen, aber nicht beides gleichzeitig.

Binäre Klassifizierung

Binäre Klassifizierung ist, wenn wir nur zwei mögliche Klassen haben. Beispielsweise könnte das Geschlecht einer Person männlich oder weiblich sein.

Arten von Klassifikationsalgorithmen

Hier sind alle Arten von Klassifizierungsalgorithmen:

Kernel-Schätzung

(K-nächster Nachbar)

Lineare Klassifikatoren

(Logistische Regression, Fishers lineare Diskriminante und Naive-Bayes-Klassifikator)

Quadratische Klassifikatoren
Neuronale Netze
Lernvektorquantisierung
Support-Vektor-Maschinen

(Least Squares Support Vector Machines)

Lassen Sie uns nun einige der wesentlichen Arten von Klassifizierungsalgorithmen diskutieren:

Erfahren Sie mehr: Arten von Algorithmen für maschinelles Lernen mit Beispielen für Anwendungsfälle

K-nächster Nachbar

K-nächster Nachbar, auch als KNN bekannt, ist ein beliebter Algorithmus zur Lösung von Regressions- und Klassifizierungsproblemen. Es klassifiziert neue Fälle nach den Stimmen der k-Nachbarn. Wir bestimmen k-nächste Nachbarn, indem wir Abstandsfunktionen verwenden. Die beliebteste Distanzfunktion ist die euklidische, aber es gibt auch andere Optionen wie Manhattan und Hamming.

Um KNN zu verstehen, können Sie sich ein Beispiel aus der Praxis ansehen. Angenommen, Sie möchten sich mit einer Person anfreunden, über die Sie nicht viele Informationen haben. Um sie besser kennenzulernen, würden Sie zuerst mit ihren Freunden und Kollegen sprechen, um sich ein Bild davon zu machen, wie sie sind. So funktioniert der KNN-Algorithmus.

Stellen Sie bei der Verwendung des k-nächsten-Nachbar-Algorithmus sicher, dass Sie die Variablen normalisieren, da Variablen mit höherem Bereich eine Verzerrung entwickeln können. Darüber hinaus sind KNN-Algorithmen rechnerisch ziemlich teuer.

Entscheidungsbäume

Entscheidungsbäume helfen Ihnen, mögliche Ergebnisse anhand einer Reihe von Entscheidungen vorherzusagen. Es ist ein überwachter Lernalgorithmus und verwendet verschiedene Funktionen mit kontinuierlichen und kategorialen abhängigen Variablen.

Angenommen, Sie möchten Obst für sich selbst kaufen, stellen aber fest, dass das Wetter bewölkt ist. Jetzt haben Sie zwei Möglichkeiten, Sie könnten gehen oder vielleicht nicht. Wenn Sie gehen, kann es regnen, und dann müssten Sie mit leeren Händen zurückkehren. Auf der anderen Seite, wenn es nicht regnet, können Sie die Früchte kaufen, die Sie kaufen müssen. Es war ein einfaches Beispiel mit mehreren Variablen, aber Sie verstehen schon.

Lesen Sie auch: Entscheidungsbaum in R

Logistische Regression

Die logistische Regression ist kein Regressionsalgorithmus. Die logistische Regression schätzt diskrete Werte gemäß einem bestimmten Satz unabhängiger Variablen. Mit anderen Worten, es sagt die Wahrscheinlichkeiten eines Ereignisses mithilfe einer Logit-Funktion voraus. Deshalb wird sie auch als Logit-Regression bezeichnet.

Da die logistische Regression für die Klassifizierung entwickelt wurde, ist sie unter Experten eine beliebte Wahl. Außerdem ist es der am besten geeignete Algorithmus, um den Einfluss verschiedener unabhängiger Variablen auf ein mögliches Ergebnis zu verstehen. Der Nachteil ist, dass es nur mit vorhersagbaren binären Variablen arbeitet und davon ausgeht, dass seine Daten keine fehlenden Werte enthalten.

Support-Vektor-Maschine

In einer Support-Vektor-Maschine ist der Wert jedes Merkmals der Wert einer bestimmten Koordinate, und jedes Element ist ein Punkt im n-dimensionalen Raum. Hier steht 'n' für die Anzahl der Funktionen, die Sie haben.

Nehmen wir an, Sie haben zwei Merkmale, Haarlänge und Körpergröße. In diesem Fall würden wir diese Variablen zuerst in einem zweidimensionalen Raum darstellen, und jeder Punkt hat zwei Koordinaten. Wir nennen diese Koordinaten Stützvektoren; Deshalb heißt dieser Algorithmus Support Vector Machine.

Nachdem wir diese Punkte aufgetragen haben, finden wir eine Linie, die die Daten in zwei eindeutig klassifizierte Gruppen aufteilt. Diese Zeile ist der Klassifikator, und wir würden Klassen gemäß der Seite erstellen, auf der unsere Testdaten im Endergebnis liegen.

Abschließende Gedanken

In diesem Blog haben wir versucht, Klassifizierungsalgorithmen so umfassend wie möglich zu erklären. Wenn Sie mehr über dieses Thema erfahren möchten, empfehlen wir Ihnen, unseren Blog zu besuchen, der mit wertvollen Artikeln dieser Art gefüllt ist.

Sie können auch zu unserem Katalog der Machine Learning-Kurse gehen, um mehr über dieses Thema zu erfahren. Wir sind sicher, dass Sie etwas Nützliches finden werden.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Bereiten Sie sich auf eine Karriere der Zukunft vor

PG DIPLOM IN MASCHINELLEM LERNEN UND KÜNSTLICHER INTELLIGENZ

Erfahren Sie mehr @ UPGRAD