Lineare Diskriminanzanalyse für maschinelles Lernen: Was Sie wissen müssen?

Veröffentlicht: 2020-05-22

Der technologische Fortschritt der letzten Jahre hat es vernetzten Geräten ermöglicht, riesige Datenmengen zu verarbeiten. Die Speicherung und Sicherheit von Daten bleibt jedoch immer noch ein großes Problem, wenn man mit solch riesigen Datenmengen umgeht. Aus diesem Grund ist der richtige Umgang mit Daten sehr wichtig. Es kann oft eine zeitraubende Aufgabe sein.

Hier kommen Techniken zur Reduzierung der Datendimensionalität wie die lineare Diskriminanzanalyse oder LDA ins Spiel. Diese Techniken können Ihnen helfen, Datensätze viel besser zu handhaben und gleichzeitig Datensicherheit und Datenschutz zu gewährleisten. Unser Fokus in diesem Blog liegt auf der Erörterung der Technik zur Reduzierung der Dimensionalität von Daten mit linearer Diskriminanzanalyse. Beginnen wir damit, über Dimensionsreduktion zu sprechen.

Inhaltsverzeichnis

Was ist Dimensionsreduktion?

Sie können die Technik der linearen Diskriminanzanalyse besser verstehen, wenn Sie den Hintergrund des zugrunde liegenden Konzepts kennen. Wenn Sie es mit mehrdimensionalen Daten zu tun haben, haben Sie Daten, die eine Reihe von Merkmalen aufweisen, die miteinander korrelieren. Wenn wir mehrdimensionale Daten in zwei oder drei Dimensionen darstellen, verwenden wir die Technik der Dimensionsreduktion.

Eine Alternative, die auch recht häufig als Ersatz für die Dimensionsreduktion verwendet wird, ist das Plotten von Daten unter anderem mit Histogrammen, Scatterplots und Boxplots. Diese Diagramme können verwendet werden, um Muster in einem bestimmten Satz von Rohdaten zu finden. Diagramme stellen Daten jedoch nicht so dar, dass sie für gewöhnliche Menschen leicht zu entziffern sind. Außerdem würden Daten mit vielen Merkmalen mehrere Diagramme benötigen, um Muster in diesem Datensatz zu identifizieren.

Techniken zur Reduzierung der Datendimensionalität wie LDA helfen bei der Überwindung dieser Bedenken, indem zwei oder drei Dimensionen zum Plotten von Daten verwendet werden. Dadurch können Sie Ihre Daten deutlicher darstellen, was auch für Personen ohne technischen Hintergrund sinnvoll ist.

Lesen Sie: 25 Fragen und Antworten zu Interviews mit maschinellem Lernen

Was ist eine lineare Diskriminanzanalyse?

Es ist eine der am häufigsten verwendeten Techniken zur Dimensionsreduktion. Es wird im maschinellen Lernen sowie in Anwendungen verwendet, die etwas mit der Klassifizierung von Mustern zu tun haben. LDA dient einem ganz bestimmten Zweck, der darin besteht, Merkmale, die in einem hochdimensionalen Raum existieren, auf den Raum in einer niedrigeren Dimension zu projizieren.

Dies geschieht, um übliche Dimensionalitätsprobleme zu beseitigen und Dimensionskosten und -ressourcen zu senken. Ronald A. Fisher ist das Verdienst für die Entwicklung des ursprünglichen Konzepts von 1936 – Fisher's Discriminant Analysis oder Linear Discriminant . Ursprünglich war die lineare Diskriminante eine Zwei-Klassen-Technik. Die Mehrklassenversion kam später hinzu.

Die lineare Diskriminanzanalyse ist eine überwachte Klassifizierungsmethode, die zum Erstellen von Modellen für maschinelles Lernen verwendet wird. Diese auf Dimensionsreduktion basierenden Modelle werden unter anderem in Anwendungen wie Marketing Predictive Analysis und Bilderkennung verwendet. Über Anwendungen sprechen wir etwas später.

Wonach suchen wir also genau bei LDA? Es gibt zwei Bereiche, bei deren Entdeckung diese Technik der Dimensionsreduktion hilfreich ist – Die Parameter, die verwendet werden können, um die Beziehung zwischen einer Gruppe und einem Objekt zu erklären – Das Klassifikations-Präzeptor-Modell, das bei der Trennung der Gruppen helfen kann. Aus diesem Grund wird LDA häufig verwendet, um Sorten in verschiedenen Gruppen zu modellieren. Sie können diese Technik also verwenden, um zwei oder mehr als zwei Klassen für die Verteilung einer Variablen zu verwenden.

Erweiterungen zur linearen Diskriminanzanalyse

LDA gilt als eine der einfachsten und effektivsten Methoden zur Klassifizierung. Da die Methode so einfach und leicht verständlich ist, haben wir einige Variationen sowie Erweiterungen dafür verfügbar. Einige davon sind:

1. Regularisierte Diskriminanzanalyse oder RDA

RDA wird verwendet, um die Varianz- oder Kovarianzschätzung zu regulieren. Dies geschieht, um den Einfluss abzuschwächen, den Variablen auf die LDA haben.

2. Quadratische Diskriminanzanalyse oder QDA

In QDA verwenden verschiedene Klassen ihre eigene Varianzschätzung. Falls die Anzahl der Eingabevariablen größer als üblich ist, verwendet jede Klasse ihre Kovarianzschätzung.

3. Flexible Diskriminanzanalyse oder FDA

FDA verwendet Eingaben mit nichtlinearen Kombinationen. Splines sind ein gutes Beispiel.

Erfahren Sie mehr über: Ideen und Themen für Python-Projekte

Gängige LDA-Anwendungen

LDA findet seine Verwendung in mehreren Anwendungen. Es kann bei jedem Problem verwendet werden, das in ein Klassifizierungsproblem umgewandelt werden kann. Gängige Beispiele sind Geschwindigkeitserkennung, Gesichtserkennung, Chemie, Microarray-Datenklassifizierung, Bildabruf, Biometrie und Bioinformatik, um nur einige zu nennen. Lassen Sie uns einige davon besprechen.

1. Gesichtserkennung

In der Computer Vision gilt die Gesichtserkennung als eine der beliebtesten Anwendungen. Die Gesichtserkennung wird durchgeführt, indem Gesichter mit großen Mengen an Pixelwerten dargestellt werden. LDA wird verwendet, um die Anzahl der Merkmale zu reduzieren, um die Verwendung der Klassifizierungsmethode zu begründen. Die neuen Abmessungen sind Kombinationen von Pixelwerten, die zum Erstellen einer Vorlage verwendet werden.

2. Kundenidentifikation

Wenn Sie Kunden anhand der Wahrscheinlichkeit identifizieren möchten, dass sie ein Produkt kaufen, können Sie mit LDA Kundenmerkmale sammeln. Sie können diejenigen Merkmale identifizieren und auswählen, die die Gruppe von Kunden beschreiben, die höhere Kaufchancen für ein Produkt aufweisen.

3. Medizinisch

LDA kann verwendet werden, um Krankheiten in verschiedene Kategorien einzuteilen, wie z. B. schwer, leicht oder mittelschwer. Es gibt mehrere Patientenparameter, die in die Durchführung dieser Klassifizierungsaufgabe einfließen. Diese Klassifizierung ermöglicht es Ärzten, das Tempo der Behandlung festzulegen.

Lesen Sie auch: 15 interessante Projektideen für maschinelles Lernen für Anfänger

Fazit

LDA ist eine einfache und gut verständliche Technik, die häufig in Klassifikations-ML-Modellen verwendet wird. PCA und logistische Regression sind weitere Techniken zur Dimensionsreduktion, die uns zur Verfügung stehen. Aber wenn es um spezielle Klassifikationsprobleme geht, wird LDA den beiden anderen vorgezogen.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Was ist eine lineare Diskriminanzanalyse?

Die lineare Diskriminanzanalyse (LDA) ist ein Klassifizierungsalgorithmus, um die zugrunde liegenden Merkmale zu lernen, die gut sind, um eine Gruppe von Proben von allen anderen Gruppen zu unterscheiden. Als Ergebnis der Anwendung des LDA-Algorithmus erhalten wir einen neuen Funktionssatz, der zur Vorhersage der Gruppenmitgliedschaft verwendet werden kann. Angenommen, Sie sammeln IP-Adressen und möchten herausfinden, zu welchem ​​Land sie gehören. Sie haben einen Trainingssatz von Beispiel-IP-Adressen und können das Herkunftsland mit sehr hoher Genauigkeit identifizieren. Wenn Sie eine neue IP-Adresse haben und wissen möchten, aus welchem ​​Land sie stammt, können Sie sie einem LDA mitteilen, der sie der Klasse mit der höchsten Wahrscheinlichkeit zuordnet.

Was sind die Anwendungen der linearen Diskriminanzanalyse?

Die lineare Diskriminanzanalyse (LDA) ist eine Reihe von Techniken im Rahmen des überwachten Lernens. LDA ist ein Verfahren, bei dem die abhängige Variable im Merkmalsraum linear separierbar ist. LDA wird in Marketing, Finanzen und anderen Bereichen verwendet, um eine Reihe von Klassifizierungsaufgaben wie Kundenprofilerstellung und Betrugserkennung durchzuführen. Stellen Sie sich beispielsweise vor, dass wir eine lineare Kombination unabhängiger Variablen finden möchten, die zwei Gruppen von Datenpunkten trennt. LDA findet eine lineare Kombination der unabhängigen Variablen, die eine maximale Trennung zwischen den zwei Gruppen von Datenpunkten im Merkmalsraum erzeugt.

Was ist Dimensionsreduktion?

Dimensionsreduktion bezieht sich auf eine Sammlung von Techniken zur Reduzierung der Anzahl von Variablen in einem Datensatz. Die gebräuchlichste Technik zur Dimensionsreduktion ist die Hauptkomponentenanalyse (PCA). PCA ist aufgrund seiner Einfachheit, mathematischen Eleganz und hohen statistischen Eigenschaften die beliebteste Technik zur Dimensionsreduktion. PCA wird verwendet, um die Dimensionalität eines Datensatzes zu reduzieren, indem die Achse identifiziert wird, die die größte Varianz zusammen mit den wenigsten Fehlern enthält.