PCA w uczeniu maszynowym: założenia, kroki do zastosowania i aplikacje

Opublikowany: 2020-11-12

Spis treści

Zrozumienie redukcji wymiarowości w ML

Algorytmy ML (uczenia maszynowego) są testowane z pewnymi danymi, które można nazwać zestawem funkcji w czasie opracowywania i testowania. Deweloperzy muszą zmniejszyć liczbę zmiennych wejściowych w swoim zestawie funkcji, aby zwiększyć wydajność dowolnego konkretnego modelu/algorytmu ML.

Załóżmy na przykład, że masz zestaw danych z wieloma kolumnami lub masz tablicę punktów w przestrzeni trójwymiarowej. W takim przypadku możesz zmniejszyć wymiary zestawu danych, stosując techniki redukcji wymiarów w ML. PCA (Principal Component Analysis) jest jedną z szeroko stosowanych technik redukcji wymiarowości przez programistów/testerów ML. Zanurzmy się głębiej w zrozumienie PCA w uczeniu maszynowym.

Analiza głównych składowych

PCA to nienadzorowana technika statystyczna, która służy do zmniejszania wymiarów zbioru danych. Modele ML z wieloma zmiennymi wejściowymi lub wyższą wymiarowością zwykle zawodzą podczas pracy na wyższym wejściowym zestawie danych. PCA pomaga w identyfikowaniu relacji między różnymi zmiennymi, a następnie ich łączeniu. PCA pracuje nad pewnymi założeniami, których należy przestrzegać i pomaga programistom utrzymać standard.

PCA polega na przekształceniu zmiennych w zbiorze danych w nowy zestaw zmiennych, które nazywane są PC (główne komponenty). Główne składniki byłyby równe liczbie oryginalnych zmiennych w danym zbiorze danych.

Pierwszy główny składnik (PC1) zawiera maksymalną zmienność, która była obecna we wcześniejszych zmiennych, a ta zmienność zmniejsza się, gdy przechodzimy na niższy poziom. Ostateczny komputer będzie miał najmniejsze różnice między zmiennymi i będziesz mógł zmniejszyć wymiary swojego zestawu funkcji.

Założenia w PCA

W PCA istnieją pewne założenia, których należy przestrzegać, ponieważ doprowadzą one do dokładnego funkcjonowania tej techniki redukcji wymiarowości w ML. Założenia w PCA to:

• W zestawie danych musi być liniowość, tj. zmienne łączą się liniowo, tworząc zestaw danych. Zmienne wykazują relacje między sobą.

• PCA zakłada, że ​​należy zwrócić uwagę na główny składnik o dużej wariancji, a komputery PC o mniejszej wariancji są ignorowane jako szum. Rama współczynnika korelacji Pearsona doprowadziła do powstania PCA i tam założono najpierw, że osie o dużej wariancji zostaną przekształcone tylko w składowe główne.

• Wszystkie zmienne powinny być dostępne na tym samym poziomie współczynnika pomiaru. Najkorzystniejszą normą jest co najmniej 150 obserwacji zbioru próby z pomiarem ilorazowym 5:1.

• Wartości ekstremalne, które odbiegają od innych punktów danych w dowolnym zestawie danych, zwane również wartościami odstającymi, powinny być mniejsze. Większa liczba wartości odstających będzie reprezentować błędy eksperymentalne i degraduje model/algorytm ML.

• Zestaw funkcji musi być skorelowany, a zredukowany zestaw funkcji po zastosowaniu PCA będzie reprezentował oryginalny zestaw danych, ale w efektywny sposób z mniejszą liczbą wymiarów.

Musisz przeczytać: Wynagrodzenie za uczenie maszynowe w Indiach

Kroki do zastosowania PCA

Kroki w celu zastosowania PCA na dowolnym modelu/algorytmie ML są następujące:

• Normalizacja danych jest bardzo potrzebna do zastosowania PCA. Dane nieskalowane mogą powodować problemy we względnym porównywaniu zestawu danych. Na przykład, jeśli mamy listę liczb pod kolumną w jakimś zbiorze danych 2D, średnia tych liczb jest odejmowana od wszystkich liczb, aby znormalizować zbiór danych 2D. Normalizację danych można również przeprowadzić w zestawie danych 3D.

• Po znormalizowaniu zbioru danych znajdź kowariancję między różnymi wymiarami i umieść je w macierzy kowariancji. Elementy pozadiagonalne w macierzy kowariancji będą reprezentować kowariancję między każdą parą zmiennych, a elementy diagonalne będą reprezentować wariancje każdej zmiennej/wymiaru.

Macierz kowariancji skonstruowana dla dowolnego zbioru danych zawsze będzie symetryczna. Macierz kowariancji będzie reprezentować relację w danych i można łatwo zrozumieć wielkość wariancji w każdym głównym składniku.

• Musisz znaleźć wartości własne macierzy kowariancji, która reprezentuje zmienność danych w układzie ortogonalnym na wykresie. Będziesz także musiał znaleźć wektory własne macierzy kowariancji, które będą reprezentować kierunek, w którym występuje maksymalna wariancja danych.

Załóżmy, że twoja macierz kowariancji „C” ma macierz kwadratową „E” wartości własnych „C”. W takim przypadku powinien spełniać to równanie – wyznacznik (EI – C) = 0, gdzie 'I' jest macierzą jednostkową o tym samym wymiarze co 'C'. Należy sprawdzić, czy ich macierz kowariancji jest macierzą symetryczną/kwadratową, ponieważ wtedy możliwe jest tylko obliczenie wartości własnych.

• Ułóż wartości własne w porządku rosnącym/malejącym i wybierz wyższe wartości własne. Możesz wybrać, z iloma wartościami własnymi chcesz kontynuować. Utracisz część informacji, ignorując mniejsze wartości własne, ale te niewielkie wartości nie będą miały wystarczającego wpływu na wynik końcowy.

Wybrane wyższe wartości własne staną się wymiarami zaktualizowanego zestawu funkcji. Tworzymy również wektor cech, który jest macierzą wektorową składającą się z wektorów własnych o względnych wybranych wartościach własnych.

• Używając wektora cech, znajdujemy główne składniki analizowanego zbioru danych. Mnożymy transpozycję wektora cech przez transpozycję przeskalowanej macierzy (przeskalowana wersja danych po normalizacji), aby otrzymać macierz zawierającą główne składowe.

Zauważymy, że dla danych odpowiednia będzie najwyższa wartość własna, a pozostałe nie dostarczą wielu informacji o zbiorze danych. To dowodzi, że nie tracimy danych przy zmniejszaniu wymiarów zbioru danych; po prostu bardziej go reprezentujemy.

Metody te są wdrażane w celu ostatecznego zmniejszenia wymiarów dowolnego zestawu danych w PCA.

Zastosowania PCA

Dane generowane są w wielu sektorach i istnieje potrzeba analizy danych pod kątem rozwoju każdej firmy/firmy. PCA pomoże w zmniejszeniu wymiarów danych, ułatwiając w ten sposób analizę. Zastosowania PCA to:

• Neuronauka – Neuronaukowcy używają PCA do identyfikacji dowolnego neuronu lub mapowania struktury mózgu podczas przejść fazowych.

• Finanse – PCA jest wykorzystywane w sektorze finansowym do zmniejszania wymiarowości danych w celu tworzenia portfeli o stałym dochodzie. Wiele innych aspektów sektora finansowego obejmuje PCA, takich jak prognozowanie zwrotów, tworzenie algorytmów alokacji aktywów lub algorytmów kapitałowych itp.

• Technologia obrazu – PCA jest również używana do kompresji obrazu lub cyfrowego przetwarzania obrazu. Każdy obraz może być reprezentowany przez macierz, wykreślając wartości intensywności każdego piksela, a następnie możemy zastosować na nim PCA.

• Rozpoznawanie twarzy – PCA w rozpoznawaniu twarzy prowadzi do tworzenia eigenfaces, co sprawia, że ​​rozpoznawanie twarzy jest dokładniejsze.

• Medyczne – PCA jest wykorzystywane do wielu danych medycznych w celu znalezienia korelacji między różnymi zmiennymi. Na przykład lekarze używają PCA do wykazania korelacji między cholesterolem a lipoproteiną o niskiej gęstości.

• Bezpieczeństwo – anomalie można łatwo znaleźć za pomocą PCA. Służy do identyfikowania ataków cybernetycznych/komputerowych i wizualizacji ich za pomocą PCA.

Punkty na wynos

PCA może również prowadzić do niskiej wydajności modelu po zastosowaniu go, jeśli oryginalny zestaw danych ma słabą korelację lub nie ma korelacji. Zmienne muszą być ze sobą powiązane, aby idealnie zastosować PCA. PCA zapewnia nam kombinację funkcji, a znaczenie poszczególnych funkcji z oryginalnego zestawu danych jest usuwane. Osie główne o największej zmienności są idealnymi elementami głównymi.

Przeczytaj także: Pomysły na projekty uczenia maszynowego

Wniosek

PCA to szeroko stosowana technika zmniejszania wymiarów zestawu funkcji.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Czy PCA można używać do wszystkich danych?

TAk. Analiza głównych składowych (PCA) to technika analizy danych, która zapewnia sposób patrzenia i rozumienia danych, które są bardzo wielowymiarowe. Innymi słowy, PCA można zastosować do danych, które mają dużą liczbę zmiennych. Istnieje powszechne błędne przekonanie, że PCA można używać tylko w przypadku danych, które mają określoną formę. Na przykład wiele osób uważa, że ​​PCA jest przydatne tylko w przypadku zmiennych liczbowych. Nie o to chodzi. W rzeczywistości PCA może być używany do zmiennych wszystkich typów. Na przykład PCA można zastosować do zmiennych kategorialnych, zmiennych porządkowych i tak dalej.

Jakie są ograniczenia analizy głównych składowych?

PCA to świetne narzędzie do analizy danych i wyodrębnienia dwóch lub trzech najważniejszych czynników. Wspaniale jest dostrzec wartości odstające i trend. Ma jednak pewne ograniczenia, takie jak: Nie nadaje się do małych zestawów danych (ogólnie zestaw danych powinien mieć więcej niż 30 wierszy). Nie znajduje istotnych czynników, ale dobiera je na podstawie wartości. Tak więc trudno jest znaleźć ważne czynniki. Nie ma za sobą silnej struktury matematycznej. Trudno porównywać dane z PCA. Nie może znaleźć żadnych nieliniowych relacji.

Jakie są zalety analizy głównych składowych?

Analiza głównych składowych (PCA) to metoda statystyczna wykorzystywana do przekształcania dużej liczby potencjalnie skorelowanych zmiennych w znacznie mniejszą liczbę nieskorelowanych zmiennych, określanych jako główne składowe. PCA może być wykorzystana jako technika redukcji danych, ponieważ pozwala nam znaleźć najważniejsze zmienne potrzebne do opisania zbioru danych. PCA można również wykorzystać do zmniejszenia wymiarowości przestrzeni danych w celu uzyskania wglądu w wewnętrzną strukturę danych. Jest to przydatne w przypadku dużych zbiorów danych.