PCA in Machine Learning: presupposti, passaggi da applicare e applicazioni

Pubblicato: 2020-11-12

Sommario

Comprendere la riduzione della dimensionalità in ML

Gli algoritmi ML (Machine Learning) vengono testati con alcuni dati che possono essere chiamati set di funzionalità al momento dello sviluppo e del test. Gli sviluppatori devono ridurre il numero di variabili di input nel loro set di funzionalità per aumentare le prestazioni di qualsiasi modello/algoritmo ML particolare.

Si supponga, ad esempio, di disporre di un set di dati con numerose colonne o di disporre di una matrice di punti in uno spazio 3D. In tal caso, puoi ridurre le dimensioni del tuo set di dati applicando tecniche di riduzione della dimensionalità in ML. PCA (Principal Component Analysis) è una delle tecniche di riduzione della dimensionalità ampiamente utilizzate dagli sviluppatori/tester di ML. Approfondiamo la comprensione della PCA nell'apprendimento automatico.

Analisi del componente principale

La PCA è una tecnica statistica non supervisionata utilizzata per ridurre le dimensioni del set di dati. I modelli ML con molte variabili di input o dimensionalità superiore tendono a fallire quando si opera su un set di dati di input più elevato. PCA aiuta a identificare le relazioni tra le diverse variabili e quindi ad accoppiarle. PCA funziona su alcuni presupposti che devono essere seguiti e aiuta gli sviluppatori a mantenere uno standard.

La PCA prevede la trasformazione delle variabili nel dataset in un nuovo insieme di variabili che prendono il nome di PC (Principal Components). Le componenti principali sarebbero uguali al numero di variabili originali nel dataset dato.

La prima componente principale (PC1) contiene la variazione massima che era presente nelle variabili precedenti e questa variazione diminuisce man mano che ci spostiamo al livello inferiore. Il PC finale avrebbe la minima variazione tra le variabili e sarai in grado di ridurre le dimensioni del tuo set di funzionalità.

Ipotesi in PCA

Ci sono alcune ipotesi in PCA che devono essere seguite in quanto porteranno a un funzionamento accurato di questa tecnica di riduzione della dimensionalità in ML. Le ipotesi in PCA sono:

• Ci deve essere linearità nel set di dati, cioè le variabili si combinano in modo lineare per formare il set di dati. Le variabili mostrano relazioni tra loro.

• PCA presuppone che la componente principale con varianza elevata debba essere prestata e che i PC con varianza inferiore siano ignorati come rumore. Il quadro del coefficiente di correlazione di Pearson ha portato all'origine della PCA e lì si è inizialmente ipotizzato che gli assi con varianza elevata sarebbero stati trasformati solo in componenti principali.

• È necessario accedere a tutte le variabili con lo stesso livello di misurazione del rapporto. La norma maggiormente preferita è di almeno 150 osservazioni del set di campioni con un rapporto di misurazione di 5:1.

• I valori estremi che deviano da altri punti dati in qualsiasi set di dati, chiamati anche valori anomali, dovrebbero essere inferiori. Un numero maggiore di valori anomali rappresenterà errori sperimentali e degraderà il tuo modello/algoritmo ML.

• Il set di funzionalità deve essere correlato e il set di funzionalità ridotto dopo l'applicazione del PCA rappresenterà il set di dati originale ma in modo efficace con dimensioni inferiori.

Da leggere: Stipendio di apprendimento automatico in India

Passaggi per l'applicazione del PCA

I passaggi per applicare la PCA su qualsiasi modello/algoritmo ML sono i seguenti:

• La normalizzazione dei dati è molto necessaria per applicare la PCA. I dati non ridimensionati possono causare problemi nel confronto relativo del set di dati. Ad esempio, se abbiamo un elenco di numeri sotto una colonna in un set di dati 2D, la media di quei numeri viene sottratta da tutti i numeri per normalizzare il set di dati 2D. La normalizzazione dei dati può essere eseguita anche in un set di dati 3D.

• Dopo aver normalizzato il set di dati, trovare la covarianza tra diverse dimensioni e inserirle in una matrice di covarianza. Gli elementi fuori diagonale nella matrice di covarianza rappresenteranno la covarianza tra ciascuna coppia di variabili e gli elementi diagonali rappresenteranno le varianze di ciascuna variabile/dimensione.

Una matrice di covarianza costruita per qualsiasi set di dati sarà sempre simmetrica. Una matrice di covarianza rappresenterà la relazione nei dati e potrai comprendere facilmente la quantità di varianza in ogni componente principale.

• Devi trovare gli autovalori della matrice di covarianza che rappresenta la variabilità dei dati su base ortogonale nel grafico. Dovrai anche trovare gli autovettori della matrice di covarianza che rappresenteranno la direzione in cui si verifica la massima varianza tra i dati.

Supponiamo che la tua matrice di covarianza 'C' abbia una matrice quadrata 'E' di autovalori di 'C'. In tal caso, dovrebbe soddisfare questa equazione – determinante di (EI – C) = 0, dove 'I' è una matrice identità della stessa dimensione di 'C'. Dovresti controllare che la loro matrice di covarianza sia una matrice simmetrica/quadrata perché allora è possibile solo il calcolo degli autovalori.

• Disporre gli autovalori in ordine crescente/decrescente e selezionare gli autovalori superiori. Puoi scegliere con quanti autovalori vuoi procedere. Perderai alcune informazioni ignorando gli autovalori più piccoli, ma quei valori minimi non creeranno un impatto sufficiente sul risultato finale.

Gli autovalori superiori selezionati diventeranno le dimensioni del set di funzionalità aggiornato. Formiamo anche un vettore di caratteristiche, che è una matrice vettoriale costituita da autovettori di autovalori relativi scelti.

• Utilizzando il vettore delle caratteristiche, troviamo le componenti principali del dataset in analisi. Moltiplichiamo la trasposizione del vettore delle caratteristiche per la trasposizione della matrice in scala (una versione in scala dei dati dopo la normalizzazione) per ottenere una matrice contenente i componenti principali.

Noteremo che l'autovalore più alto sarà appropriato per i dati e gli altri non forniranno molte informazioni sul set di dati. Ciò dimostra che non stiamo perdendo dati quando si riducono le dimensioni del set di dati; lo stiamo solo rappresentando in modo più efficace.

Questi metodi vengono implementati per ridurre finalmente le dimensioni di qualsiasi set di dati in PCA.

Applicazioni dell'APC

I dati vengono generati in molti settori ed è necessario analizzare i dati per la crescita di qualsiasi impresa/azienda. PCA aiuterà a ridurre le dimensioni dei dati, rendendo così più facile l'analisi. Le applicazioni del PCA sono:

• Neuroscienze – I neuroscienziati usano la PCA per identificare qualsiasi neurone o per mappare la struttura del cervello durante le transizioni di fase.

• Finanza – La PCA viene utilizzata nel settore finanziario per ridurre la dimensionalità dei dati per creare portafogli a reddito fisso. Molti altri aspetti del settore finanziario coinvolgono la PCA come la previsione dei rendimenti, la creazione di algoritmi di asset allocation o di equità, ecc.

• Tecnologia delle immagini: la PCA viene utilizzata anche per la compressione delle immagini o l'elaborazione digitale delle immagini. Ogni immagine può essere rappresentata tramite una matrice tracciando i valori di intensità di ciascun pixel, quindi possiamo applicare PCA su di essa.

• Riconoscimento facciale: la PCA nel riconoscimento facciale porta alla creazione di volti propri che rendono il riconoscimento facciale più accurato.

• Medico: la PCA viene utilizzata su molti dati medici per trovare la correlazione tra diverse variabili. Ad esempio, i medici usano la PCA per mostrare la correlazione tra colesterolo e lipoproteine ​​a bassa densità.

• Sicurezza: le anomalie possono essere trovate facilmente utilizzando la PCA. Viene utilizzato per identificare attacchi informatici/computer e visualizzarli con l'aiuto di PCA.

Punti da asporto

La PCA può anche portare a prestazioni del modello basse dopo l'applicazione se il set di dati originale ha una correlazione debole o nessuna correlazione. Le variabili devono essere correlate tra loro per applicare perfettamente la PCA. PCA ci fornisce una combinazione di funzionalità e l'importanza delle singole funzionalità dal set di dati originale viene eliminata. Gli assi principali con la maggiore varianza sono le componenti principali ideali.

Leggi anche: Idee per progetti di apprendimento automatico

Conclusione

PCA è una tecnica ampiamente utilizzata per ridurre le dimensioni di un set di funzionalità.

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

È possibile utilizzare PCA su tutti i dati?

Sì. L'analisi dei componenti principali (PCA) è una tecnica di analisi dei dati che fornisce un modo di guardare e comprendere i dati di dimensioni molto elevate. In altre parole, PCA può essere applicato a dati che hanno un gran numero di variabili. C'è un malinteso comune sul fatto che PCA possa essere utilizzato solo su dati che si trovano in una determinata forma. Ad esempio, molte persone pensano che la PCA sia utile solo su variabili numeriche. Questo non è il caso. Infatti, PCA può essere utilizzato su variabili di tutti i tipi. Ad esempio, PCA può essere applicato a variabili categoriali, variabili ordinali e così via.

Quali sono i limiti dell'analisi delle componenti principali?

PCA è un ottimo strumento per analizzare i dati ed estrarre due o tre fattori più importanti. È fantastico individuare i valori anomali e la tendenza. Ma ha alcune limitazioni come: Non è adatto per piccoli set di dati (generalmente, il set di dati dovrebbe avere più di 30 righe). Non trova i fattori importanti ma li seleziona in base ai valori. Quindi, è difficile trovare i fattori importanti. Non ha una forte struttura matematica dietro. È difficile confrontare i dati con PCA. Non riesce a trovare alcuna relazione non lineare.

Quali sono i vantaggi dell'analisi delle componenti principali?

L'analisi delle componenti principali (PCA) è un metodo statistico utilizzato per trasformare un gran numero di variabili possibilmente correlate in un numero molto più piccolo di variabili non correlate denominate componenti principali. La PCA può essere utilizzata come tecnica di riduzione dei dati in quanto ci consente di trovare le variabili più importanti necessarie per descrivere un set di dati. PCA può anche essere utilizzato per ridurre la dimensionalità dello spazio dati al fine di ottenere informazioni sulla struttura interna dei dati. Questo è utile quando si ha a che fare con set di dati di grandi dimensioni.