PCA în învățarea automată: ipoteze, pași pentru a aplica și aplicații
Publicat: 2020-11-12Cuprins
Înțelegerea reducerii dimensionalității în ML
Algoritmii ML (învățare automată) sunt testați cu unele date care pot fi numite un set de caracteristici în momentul dezvoltării și testării. Dezvoltatorii trebuie să reducă numărul de variabile de intrare din setul lor de caracteristici pentru a crește performanța oricărui model/algoritm ML anume.
De exemplu, să presupunem că aveți un set de date cu numeroase coloane sau aveți o matrice de puncte într-un spațiu 3-D. În acest caz, puteți reduce dimensiunile setului de date prin aplicarea tehnicilor de reducere a dimensionalității în ML. PCA (Principal Component Analysis) este una dintre tehnicile de reducere a dimensionalității utilizate pe scară largă de către dezvoltatorii/testerii ML. Să ne aprofundăm în înțelegerea PCA în învățarea automată.
Analiza componentelor principale
PCA este o tehnică statistică nesupravegheată care este utilizată pentru a reduce dimensiunile setului de date. Modelele ML cu multe variabile de intrare sau dimensionalitate mai mare tind să eșueze atunci când funcționează pe un set de date de intrare mai mare. PCA ajută la identificarea relațiilor dintre diferite variabile și apoi la cuplarea acestora. PCA funcționează pe anumite ipoteze care trebuie urmate și îi ajută pe dezvoltatori să mențină un standard.
PCA implică transformarea variabilelor din setul de date într-un nou set de variabile care se numesc PC-uri (Componente principale). Componentele principale ar fi egale cu numărul de variabile originale din setul de date dat.
Prima componentă principală (PC1) conține variația maximă care a fost prezentă în variabilele anterioare, iar această variație scade pe măsură ce trecem la nivelul inferior. PC-ul final ar avea cea mai mică variație între variabile și veți putea reduce dimensiunile setului de caracteristici.
Ipoteze în PCA
Există câteva ipoteze în PCA care trebuie urmate, deoarece acestea vor duce la funcționarea corectă a acestei tehnici de reducere a dimensionalității în ML. Ipotezele din PCA sunt:

• Trebuie să existe liniaritate în setul de date, adică variabilele se combină într-o manieră liniară pentru a forma setul de date. Variabilele prezintă relații între ele.
• PCA presupune că componenta principală cu varianță mare trebuie acordată atenție, iar PC-urile cu varianță mai mică sunt ignorate ca zgomot. Cadrul coeficientului de corelație Pearson a condus la originea PCA și acolo sa presupus mai întâi că axele cu varianță mare vor fi transformate doar în componente principale.
• Toate variabilele ar trebui să fie accesate la același nivel de măsurare a raportului. Cea mai preferată normă este cel puțin 150 de observații ale setului de probă cu o măsurare a raportului de 5:1.
• Valorile extreme care se abat de la alte puncte de date din orice set de date, care sunt numite și valori aberante, ar trebui să fie mai mici. Un număr mai mare de valori aberante va reprezenta erori experimentale și va degrada modelul/algoritmul ML.
• Setul de caracteristici trebuie să fie corelat, iar setul de caracteristici redus după aplicarea PCA va reprezenta setul de date inițial, dar într-un mod eficient, cu mai puține dimensiuni.
Trebuie citit: Salariul de învățare automată în India
Pași pentru aplicarea PCA
Pașii pentru aplicarea PCA pe orice model/algoritm ML sunt următorii:
• Normalizarea datelor este foarte necesară pentru aplicarea PCA. Datele nescalate pot cauza probleme în compararea relativă a setului de date. De exemplu, dacă avem o listă de numere sub o coloană dintr-un set de date 2-D, media acelor numere este scăzută din toate numerele pentru a normaliza setul de date 2-D. Normalizarea datelor se poate face și într-un set de date 3-D.
• După ce ați normalizat setul de date, găsiți covarianța între diferite dimensiuni și puneți-le într-o matrice de covarianță. Elementele off-diagonale din matricea de covarianță vor reprezenta covarianța dintre fiecare pereche de variabile, iar elementele diagonale vor reprezenta variațiile fiecărei variabile/dimensiuni.
O matrice de covarianță construită pentru orice set de date va fi întotdeauna simetrică. O matrice de covarianță va reprezenta relația în date și puteți înțelege cu ușurință cantitatea de varianță din fiecare componentă principală.
• Trebuie să găsiți valorile proprii ale matricei de covarianță care reprezintă variabilitatea datelor pe o bază ortogonală în grafic. De asemenea, va trebui să găsiți vectori proprii ai matricei de covarianță care vor reprezenta direcția în care apare variația maximă între date.
Să presupunem că matricea ta de covarianță „C” are o matrice pătrată „E” de valori proprii ale lui „C”. În acest caz, ar trebui să satisfacă această ecuație – determinantul lui (EI – C) = 0, unde „I” este o matrice de identitate de aceeași dimensiune ca a lui „C”. Ar trebui să verificați dacă matricea lor de covarianță este o matrice simetrică/pătrată pentru că atunci este posibil doar calculul valorilor proprii.
• Aranjați valorile proprii într-o ordine crescătoare/descrescătoare și selectați valorile proprii mai mari. Puteți alege cu câte valori proprii doriți să continuați. Veți pierde unele informații ignorând valorile proprii mai mici, dar acele valori minime nu vor crea suficient impact asupra rezultatului final.

Valorile proprii superioare selectate vor deveni dimensiunile setului dvs. de caracteristici actualizat. De asemenea, formăm un vector caracteristic, care este o matrice vectorială constând din vectori proprii ai valorilor proprii alese relative.
• Folosind vectorul caracteristic, găsim componentele principale ale setului de date analizat. Înmulțim transpunerea vectorului caracteristic cu transpunerea matricei scalate (o versiune scalată a datelor după normalizare) pentru a obține o matrice care conține componente principale.
Vom observa că cea mai mare valoare proprie va fi potrivită pentru date, iar celelalte nu vor oferi prea multe informații despre setul de date. Acest lucru demonstrează că nu pierdem date atunci când reducem dimensiunile setului de date; doar o reprezentăm mai eficient.
Aceste metode sunt implementate pentru a reduce în cele din urmă dimensiunile oricărui set de date din PCA.
Aplicații ale PCA
Datele sunt generate în multe sectoare și este nevoie de analiza datelor pentru creșterea oricărei firme/companii. PCA va ajuta la reducerea dimensiunilor datelor, ușurând astfel analiza. Aplicațiile PCA sunt:
• Neuroștiință – Oamenii de știință folosesc PCA pentru a identifica orice neuron sau pentru a mapa structura creierului în timpul tranzițiilor de fază.
• Finanțe – PCA este utilizat în sectorul financiar pentru a reduce dimensionalitatea datelor pentru a crea portofolii cu venit fix. Multe alte fațete ale sectorului financiar implică PCA, cum ar fi prognozarea randamentelor, realizarea de algoritmi de alocare a activelor sau algoritmi de capitaluri proprii etc.
• Tehnologia imaginii – PCA este utilizată și pentru compresia imaginii sau procesarea imaginilor digitale. Fiecare imagine poate fi reprezentată printr-o matrice prin reprezentarea grafică a valorilor intensității fiecărui pixel, iar apoi putem aplica PCA pe ea.
• Recunoaștere facială – PCA în recunoașterea facială duce la crearea de fețe proprii care face recunoașterea facială mai precisă.
• Medical – PCA este utilizat pe o mulțime de date medicale pentru a găsi corelația dintre diferite variabile. De exemplu, medicii folosesc PCA pentru a arăta corelația dintre colesterol și lipoproteinele cu densitate scăzută.

• Securitate – Anomaliile pot fi găsite cu ușurință folosind PCA. Este folosit pentru a identifica atacurile cibernetice/computer și pentru a le vizualiza cu ajutorul PCA.
Puncte Takeaway
PCA poate duce, de asemenea, la o performanță scăzută a modelului după aplicarea acestuia, dacă setul de date original are o corelație slabă sau nicio corelație. Variabilele trebuie să fie legate între ele pentru a aplica perfect PCA. PCA ne oferă o combinație de caracteristici, iar importanța caracteristicilor individuale din setul de date original este eradicată. Axele principale cu cea mai mare varianță sunt componentele principale ideale.
Citește și: Idei de proiecte de învățare automată
Concluzie
PCA este o tehnică utilizată pe scară largă pentru scăderea dimensiunilor unui set de caracteristici.
Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.
Poate fi utilizat PCA pentru toate datele?
Da. Analiza componentelor principale (PCA) este o tehnică de analiză a datelor care oferă o modalitate de a privi și înțelege datele cu dimensiuni foarte mari. Cu alte cuvinte, PCA poate fi aplicat datelor care au un număr mare de variabile. Există o concepție greșită obișnuită conform căreia PCA poate fi utilizat numai pentru date care sunt într-o anumită formă. De exemplu, mulți oameni cred că PCA este utilă doar pentru variabilele care sunt numerice. Nu este cazul. De fapt, PCA poate fi folosit pe variabile de toate tipurile. De exemplu, PCA poate fi aplicat variabilelor categoriale, variabilelor ordinale și așa mai departe.
Care sunt limitările analizei componentelor principale?
PCA este un instrument excelent pentru a vă analiza datele și a extrage doi sau trei cei mai importanți factori. Este grozav să descoperi valorile aberante și tendințele. Dar, are unele limitări, cum ar fi: Nu este potrivit pentru seturi de date mici (în general, setul de date ar trebui să aibă mai mult de 30 de rânduri). Nu găsește factorii importanți, ci îi selectează pe baza valorilor. Deci, este dificil să găsești factorii importanți. Nu are în spate o structură matematică puternică. Este dificil să compari datele cu PCA. Nu poate găsi nicio relație neliniară.
Care sunt avantajele analizei componentelor principale?
Analiza componentelor principale (PCA) este o metodă statistică utilizată pentru a transforma un număr mare de variabile posibil corelate într-un număr mult mai mic de variabile necorelate, denumite componente principale. PCA poate fi folosit ca o tehnică de reducere a datelor, deoarece ne permite să găsim cele mai importante variabile care sunt necesare pentru a descrie un set de date. PCA poate fi folosit și pentru a reduce dimensionalitatea spațiului de date pentru a obține o perspectivă asupra structurii interioare a datelor. Acest lucru este util atunci când aveți de-a face cu seturi de date mari.