PCA im maschinellen Lernen: Annahmen, Schritte zur Anwendung und Anwendungen

Veröffentlicht: 2020-11-12

Inhaltsverzeichnis

Die Dimensionalitätsreduktion in ML verstehen

ML-Algorithmen (Machine Learning) werden mit einigen Daten getestet, die zum Zeitpunkt der Entwicklung und des Testens als Feature-Set bezeichnet werden können. Entwickler müssen die Anzahl der Eingabevariablen in ihrem Feature-Set reduzieren, um die Leistung eines bestimmten ML-Modells/Algorithmus zu steigern.

Angenommen, Sie haben ein Dataset mit zahlreichen Spalten oder ein Array von Punkten in einem 3D-Raum. In diesem Fall können Sie die Dimensionen Ihres Datensatzes reduzieren, indem Sie Techniken zur Dimensionsreduktion in ML anwenden. PCA (Principal Component Analysis) ist eine von ML-Entwicklern/Testern weit verbreitete Technik zur Dimensionsreduktion. Lassen Sie uns tiefer in das Verständnis von PCA beim maschinellen Lernen eintauchen.

Hauptkomponentenanalyse

PCA ist eine unbeaufsichtigte statistische Technik, die verwendet wird, um die Dimensionen des Datensatzes zu reduzieren. ML-Modelle mit vielen Eingabevariablen oder höherer Dimensionalität schlagen tendenziell fehl, wenn sie mit einem höheren Eingabedatensatz arbeiten. PCA hilft bei der Identifizierung von Beziehungen zwischen verschiedenen Variablen und deren anschließender Kopplung. PCA arbeitet mit einigen Annahmen, die befolgt werden müssen, und hilft Entwicklern, einen Standard aufrechtzuerhalten.

PCA beinhaltet die Umwandlung von Variablen im Datensatz in einen neuen Satz von Variablen, die als PCs (Hauptkomponenten) bezeichnet werden. Die Hauptkomponenten wären gleich der Anzahl der ursprünglichen Variablen im gegebenen Datensatz.

Die erste Hauptkomponente (PC1) enthält die maximale Variation, die in früheren Variablen vorhanden war, und diese Variation nimmt ab, wenn wir uns auf die niedrigere Ebene bewegen. Der endgültige PC hätte die geringste Variation zwischen den Variablen und Sie können die Abmessungen Ihres Funktionsumfangs reduzieren.

Annahmen in PCA

Es gibt einige Annahmen in PCA, die befolgt werden müssen, da sie zu einem genauen Funktionieren dieser Dimensionsreduktionstechnik in ML führen. Die Annahmen in PCA sind:

• Der Datensatz muss linear sein, dh die Variablen addieren sich linear zum Datensatz. Die Variablen weisen untereinander Beziehungen auf.

• PCA geht davon aus, dass die Hauptkomponente mit hoher Varianz beachtet werden muss und die PCs mit niedriger Varianz als Rauschen vernachlässigt werden. Das Pearson-Korrelationskoeffizienten-Framework führte zur Entstehung von PCA, und dort wurde zunächst angenommen, dass die Achsen mit hoher Varianz nur in Hauptkomponenten umgewandelt würden.

• Auf alle Variablen sollte auf dem gleichen Verhältnisniveau der Messung zugegriffen werden. Die am meisten bevorzugte Norm sind mindestens 150 Beobachtungen des Stichprobensatzes mit einer Verhältnismessung von 5:1.

• Extremwerte, die von anderen Datenpunkten in einem beliebigen Datensatz abweichen, die auch als Ausreißer bezeichnet werden, sollten geringer sein. Eine größere Anzahl von Ausreißern stellt experimentelle Fehler dar und verschlechtert Ihr ML-Modell/Ihren ML-Algorithmus.

• Der Merkmalssatz muss korreliert sein, und der reduzierte Merkmalssatz nach der Anwendung von PCA stellt den ursprünglichen Datensatz dar, jedoch auf effektive Weise mit weniger Dimensionen.

Muss gelesen werden: Gehalt für maschinelles Lernen in Indien

Schritte zum Anwenden von PCA

Die Schritte zum Anwenden von PCA auf ein beliebiges ML-Modell/einen beliebigen ML-Algorithmus sind wie folgt:

• Normalisierung von Daten ist sehr notwendig, um PCA anzuwenden. Unskalierte Daten können Probleme beim relativen Vergleich des Datensatzes verursachen. Wenn wir beispielsweise eine Liste von Zahlen unter einer Spalte in einem 2-D-Datensatz haben, wird der Mittelwert dieser Zahlen von allen Zahlen subtrahiert, um den 2-D-Datensatz zu normalisieren. Die Normalisierung der Daten kann auch in einem 3D-Datensatz erfolgen.

• Nachdem Sie den Datensatz normalisiert haben, finden Sie die Kovarianz zwischen verschiedenen Dimensionen und fügen Sie sie in eine Kovarianzmatrix ein. Die nicht-diagonalen Elemente in der Kovarianzmatrix stellen die Kovarianz zwischen jedem Variablenpaar dar, und die diagonalen Elemente stellen die Varianzen jeder Variablen/Dimension dar.

Eine für einen beliebigen Datensatz konstruierte Kovarianzmatrix ist immer symmetrisch. Eine Kovarianzmatrix stellt die Beziehung in den Daten dar, und Sie können das Ausmaß der Varianz in jeder Hauptkomponente leicht verstehen.

• Sie müssen die Eigenwerte der Kovarianzmatrix finden, die die Variabilität der Daten auf orthogonaler Basis im Diagramm darstellt. Sie müssen auch Eigenvektoren der Kovarianzmatrix finden, die die Richtung darstellen, in der die maximale Varianz zwischen den Daten auftritt.

Angenommen, Ihre Kovarianzmatrix 'C' hat eine quadratische Matrix 'E' von Eigenwerten von 'C'. In diesem Fall sollte es diese Gleichung erfüllen – Determinante von (EI – C) = 0, wobei „I“ eine Identitätsmatrix mit der gleichen Dimension wie „C“ ist. Sie sollten überprüfen, ob ihre Kovarianzmatrix eine symmetrische/quadratische Matrix ist, da dann nur die Berechnung von Eigenwerten möglich ist.

• Ordnen Sie die Eigenwerte in aufsteigender/absteigender Reihenfolge und wählen Sie die höheren Eigenwerte aus. Sie können wählen, mit wie vielen Eigenwerten Sie fortfahren möchten. Sie werden einige Informationen verlieren, während Sie die kleineren Eigenwerte ignorieren, aber diese winzigen Werte werden sich nicht ausreichend auf das Endergebnis auswirken.

Die ausgewählten höheren Eigenwerte werden zu den Dimensionen Ihres aktualisierten Feature-Sets. Wir bilden auch einen Merkmalsvektor, der eine Vektormatrix ist, die aus Eigenvektoren von relativ ausgewählten Eigenwerten besteht.

• Unter Verwendung des Merkmalsvektors finden wir die Hauptkomponenten des zu analysierenden Datensatzes. Wir multiplizieren die Transponierte des Merkmalsvektors mit der Transponierten der skalierten Matrix (eine skalierte Version von Daten nach der Normalisierung), um eine Matrix zu erhalten, die Hauptkomponenten enthält.

Wir werden feststellen, dass der höchste Eigenwert für die Daten geeignet ist und die anderen nicht viele Informationen über den Datensatz liefern. Dies beweist, dass wir keine Daten verlieren, wenn wir die Dimensionen des Datensatzes reduzieren; wir repräsentieren es nur effektiver.

Diese Methoden werden implementiert, um die Dimensionen eines beliebigen Datensatzes in PCA endgültig zu reduzieren.

Anwendungen von PCA

Daten werden in vielen Sektoren generiert, und es besteht die Notwendigkeit, Daten für das Wachstum jeder Firma/jedes Unternehmens zu analysieren. PCA wird dazu beitragen, die Dimensionen der Daten zu reduzieren, wodurch sie einfacher zu analysieren sind. Die Anwendungen von PCA sind:

• Neurowissenschaften – Neurowissenschaftler verwenden PCA, um Neuronen zu identifizieren oder die Gehirnstruktur während Phasenübergängen abzubilden.

• Finanzen – PCA wird im Finanzsektor verwendet, um die Dimensionalität von Daten zu reduzieren, um Portfolios mit festverzinslichen Wertpapieren zu erstellen. Viele andere Facetten des Finanzsektors beinhalten PCA wie die Prognose von Renditen, die Erstellung von Algorithmen zur Vermögensallokation oder Aktienalgorithmen usw.

• Bildtechnologie – PCA wird auch zur Bildkomprimierung oder digitalen Bildverarbeitung verwendet. Jedes Bild kann über eine Matrix dargestellt werden, indem die Intensitätswerte jedes Pixels aufgetragen werden, und dann können wir PCA darauf anwenden.

• Gesichtserkennung – PCA bei der Gesichtserkennung führt zur Erstellung von Eigengesichtern, wodurch die Gesichtserkennung genauer wird.

• Medizinisch – PCA wird für viele medizinische Daten verwendet, um die Korrelation zwischen verschiedenen Variablen zu finden. Zum Beispiel verwenden Ärzte PCA, um die Korrelation zwischen Cholesterin und Low-Density-Lipoprotein aufzuzeigen.

• Sicherheit – Anomalien können mit PCA leicht gefunden werden. Es wird verwendet, um Cyber-/Computerangriffe zu identifizieren und mit Hilfe von PCA zu visualisieren.

Punkte zum Mitnehmen

PCA kann auch nach der Anwendung zu einer geringen Modellleistung führen, wenn der ursprüngliche Datensatz eine schwache Korrelation oder keine Korrelation aufweist. Die Variablen müssen miteinander in Beziehung stehen, um PCA perfekt anwenden zu können. PCA bietet uns eine Kombination von Merkmalen, und die Wichtigkeit einzelner Merkmale aus dem ursprünglichen Datensatz wird ausgelöscht. Die Hauptachsen mit der größten Varianz sind die idealen Hauptkomponenten.

Lesen Sie auch: Projektideen für maschinelles Lernen

Fazit

PCA ist eine weit verbreitete Technik zum Verringern der Abmessungen eines Merkmalssatzes.

Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.

Kann PCA für alle Daten verwendet werden?

Jawohl. Die Hauptkomponentenanalyse (PCA) ist eine Datenanalysetechnik, die eine Möglichkeit bietet, sehr hochdimensionale Daten zu betrachten und zu verstehen. Mit anderen Worten, PCA kann auf Daten mit einer großen Anzahl von Variablen angewendet werden. Es gibt ein weit verbreitetes Missverständnis, dass PCA nur für Daten in einer bestimmten Form verwendet werden kann. Zum Beispiel denken viele Leute, dass PCA nur bei numerischen Variablen nützlich ist. Das ist nicht der Fall. Tatsächlich kann PCA für Variablen aller Typen verwendet werden. Beispielsweise kann PCA auf kategoriale Variablen, ordinale Variablen usw. angewendet werden.

Was sind die Einschränkungen der Hauptkomponentenanalyse?

PCA ist ein großartiges Tool, um Ihre Daten zu analysieren und zwei oder drei der wichtigsten Faktoren zu extrahieren. Es ist großartig, die Ausreißer und den Trend zu erkennen. Aber es hat einige Einschränkungen wie: Es ist nicht für kleine Datensätze geeignet (im Allgemeinen sollte der Datensatz mehr als 30 Zeilen haben). Es findet nicht die wichtigen Faktoren, sondern wählt sie anhand der Werte aus. Daher ist es schwierig, die wichtigen Faktoren zu finden. Es hat keine starke mathematische Struktur dahinter. Es ist schwierig, die Daten mit PCA zu vergleichen. Es kann keine nichtlinearen Zusammenhänge finden.

Was sind die Vorteile der Hauptkomponentenanalyse?

Die Hauptkomponentenanalyse (PCA) ist eine statistische Methode, die verwendet wird, um eine große Anzahl möglicherweise korrelierter Variablen in eine viel kleinere Anzahl unkorrelierter Variablen umzuwandeln, die als Hauptkomponenten bezeichnet werden. PCA kann als Datenreduktionstechnik verwendet werden, da es uns ermöglicht, die wichtigsten Variablen zu finden, die zur Beschreibung eines Datensatzes benötigt werden. PCA kann auch verwendet werden, um die Dimensionalität des Datenraums zu reduzieren, um einen Einblick in die innere Struktur der Daten zu erhalten. Dies ist beim Umgang mit großen Datensätzen hilfreich.