Liniowa analiza dyskryminacyjna dla uczenia maszynowego: co musisz wiedzieć?
Opublikowany: 2020-05-22Postęp technologiczny w ostatnich latach umożliwił podłączonym urządzeniom obsługę ogromnych ilości danych. Jednak przechowywanie i bezpieczeństwo danych nadal stanowią poważny problem, gdy mamy do czynienia z tak ogromnymi ilościami danych. Dlatego bardzo ważne jest właściwe obchodzenie się z danymi. Często może to być czasochłonne zadanie.
W tym miejscu pojawiają się techniki redukcji wymiarowości danych, takie jak liniowa analiza dyskryminacyjna lub LDA . Techniki te mogą pomóc w znacznie lepszej obsłudze zbiorów danych, zapewniając jednocześnie bezpieczeństwo i prywatność danych. W tym blogu skupimy się na omówieniu techniki redukcji wymiarowości danych w liniowej analizie dyskryminacyjnej. Zacznijmy od omówienia redukcji wymiarowości.
Spis treści
Co to jest redukcja wymiarowości?
Będziesz w stanie lepiej zrozumieć technikę liniowej analizy dyskryminacyjnej, jeśli znasz tło koncepcji, na której się ona opiera. Kiedy masz do czynienia z danymi wielowymiarowymi, masz dane, które mają wiele cech, które są ze sobą skorelowane. Jeśli wykreślamy dane wielowymiarowe w dwóch lub trzech wymiarach, używamy techniki redukcji wymiarów.
Alternatywą, która jest również dość powszechnie stosowana jako substytut redukcji wymiarów, jest wykreślanie danych za pomocą między innymi histogramów, wykresów punktowych i wykresów skrzynkowych. Wykresy te można wykorzystać do znalezienia wzorców w danym zestawie surowych danych. Jednak wykresy nie przedstawiają danych w sposób łatwy do rozszyfrowania dla zwykłych ludzi. Ponadto dane z wieloma funkcjami wymagałyby kilku wykresów, aby zidentyfikować wzorce w tym zestawie danych.
Techniki redukcji wymiarowości danych, takie jak LDA, pomagają przezwyciężyć te problemy, używając dwóch lub trzech wymiarów do wykreślania danych. Pozwoli to na bardziej jednoznaczną prezentację danych, co będzie miało sens nawet dla osób, które nie mają zaplecza technicznego.
Przeczytaj : 25 pytań i odpowiedzi dotyczących uczenia maszynowego

Czym jest liniowa analiza dyskryminacyjna?
Jest to jedna z najczęściej stosowanych technik redukcji wymiarowości. Jest używany w uczeniu maszynowym, a także w aplikacjach, które mają cokolwiek wspólnego z klasyfikacją wzorców. LDA służy bardzo konkretnemu celowi, jakim jest projekcja cech istniejących w przestrzeni o dużej wielkości na przestrzeń o niższym wymiarze.
Ma to na celu wyeliminowanie typowych problemów z wymiarami oraz obniżenie kosztów i zasobów wymiarowych. Ronald A Fisher jest odpowiedzialny za rozwój oryginalnej koncepcji w 1936 r. – Analiza dyskryminacyjna Fishera lub dyskryminacja liniowa . Pierwotnie dyskryminator liniowy był techniką dwuklasową. Wersja wieloklasowa pojawiła się później.
Liniowa analiza dyskryminacyjna to nadzorowana metoda klasyfikacji wykorzystywana do tworzenia modeli uczenia maszynowego. Modele te, oparte na redukcji wymiarów, są wykorzystywane w aplikacji, między innymi w predykcyjnej analizie marketingowej i rozpoznawaniu obrazów. Aplikacje omówimy nieco później.
Więc czego dokładnie szukamy w LDA? Istnieją dwa obszary, które ta technika redukcji wymiarowości pomaga w odkryciu — parametry, które można wykorzystać do wyjaśnienia związku między grupą a obiektem — model preceptora klasyfikacji, który może pomóc w oddzieleniu grup. Właśnie dlatego LDA jest szeroko stosowany do modelowania odmian w różnych grupach. Możesz więc użyć tej techniki, aby użyć dwóch lub więcej niż dwóch klas do dystrybucji zmiennej.
Rozszerzenia do liniowej analizy dyskryminacyjnej
LDA jest uważana za jedną z najprostszych i najskuteczniejszych dostępnych metod klasyfikacji. Ponieważ metoda jest tak prosta i łatwa do zrozumienia, mamy dla niej kilka odmian, a także rozszerzenia. Niektóre z nich to:
1. Uregulowana analiza dyskryminacyjna lub RDA
RDA służy do wprowadzania regularyzacji do estymacji wariancji lub kowariancji. Ma to na celu złagodzenie wpływu zmiennych na LDA.

2. Kwadratowa analiza dyskryminacyjna lub QDA
W QDA różne klasy stosują własne oszacowanie wariancji. W przypadku, gdy liczba zmiennej wejściowej jest większa niż zwykle, każda klasa wykorzystuje swoje oszacowanie kowariancji.
3. Elastyczna analiza dyskryminacyjna lub FDA
FDA wykorzystuje wejścia z nieliniowymi kombinacjami. Dobrym przykładem są splajny.
Dowiedz się więcej o: Pomysły i tematy projektów Python
Popularne aplikacje LDA
LDA znajduje zastosowanie w kilku aplikacjach. Może być stosowany w każdym problemie, który można przekształcić w problem klasyfikacji. Typowe przykłady to między innymi rozpoznawanie szybkości, rozpoznawanie twarzy, chemia, klasyfikacja danych z mikromacierzy, pobieranie obrazów, biometria i bioinformatyka. Omówmy kilka z nich.
1. Rozpoznawanie twarzy
W wizji komputerowej rozpoznawanie twarzy jest uważane za jedną z najpopularniejszych aplikacji. Rozpoznawanie twarzy odbywa się poprzez reprezentowanie twarzy przy użyciu dużej ilości wartości pikseli. LDA służy do ograniczania liczby cech w celu przygotowania podstaw do zastosowania metody klasyfikacji. Nowe wymiary to kombinacje wartości pikseli, które są używane do tworzenia szablonu.

2. Identyfikacja klienta
Jeśli chcesz identyfikować klientów na podstawie prawdopodobieństwa zakupu produktu, możesz użyć LDA do zebrania cech klientów. Możesz zidentyfikować i wybrać te cechy, które opisują grupę klientów, którzy wykazują większe szanse na zakup produktu.
3. Medyczne
LDA można wykorzystać do podzielenia chorób na różne kategorie, takie jak ciężka, łagodna lub umiarkowana. Istnieje kilka parametrów pacjenta, które będą potrzebne do przeprowadzenia tego zadania klasyfikacji. Klasyfikacja ta pozwala lekarzom określić tempo leczenia.
Przeczytaj także: 15 ciekawych pomysłów na projekty uczenia maszynowego dla początkujących
Wniosek
LDA to prosta i dobrze poznana technika, która jest powszechnie stosowana w klasyfikacji modeli ML. PCA i regresja logistyczna to inne dostępne nam techniki redukcji wymiarowości. Ale jeśli chodzi o specjalne problemy z klasyfikacją, LDA jest lepszy od pozostałych dwóch.
Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.
Czym jest liniowa analiza dyskryminacyjna?
Liniowa analiza dyskryminacyjna (LDA) to algorytm klasyfikacji do poznania podstawowych cech, które są dobre do odróżnienia grupy próbek od wszystkich innych grup. W wyniku zastosowania algorytmu LDA otrzymujemy nowy zestaw funkcji, który można wykorzystać do predykcji przynależności do grupy. Załóżmy na przykład, że zbierasz adresy IP i chcesz dowiedzieć się, do jakiego kraju należą. Masz zestaw szkoleniowy przykładowych adresów IP i potrafisz zidentyfikować kraj pochodzenia z bardzo dużą dokładnością. Jeśli masz nowy adres IP i chcesz wiedzieć, z jakiego kraju pochodzi, możesz przekazać go LDA, a on przypisze go do klasy z największym prawdopodobieństwem.
Jakie są zastosowania liniowej analizy dyskryminacyjnej?
Liniowa analiza dyskryminacyjna (LDA) to zestaw technik stosowanych w ramach nadzorowanego uczenia się. LDA to metoda, w której zmienna zależna jest liniowo separowana w przestrzeni cech. LDA jest używany w marketingu, finansach i innych obszarach do wykonywania szeregu zadań klasyfikacyjnych, takich jak profilowanie klientów i wykrywanie oszustw. Rozważmy na przykład, że chcemy znaleźć liniową kombinację niezależnych zmiennych, która oddziela dwie grupy punktów danych. LDA znajduje liniową kombinację niezależnych zmiennych, która zapewnia maksymalną separację między dwiema grupami punktów danych w przestrzeni cech.
Co to jest redukcja wymiarowości?
Redukcja wymiarowości odnosi się do zbioru technik zmniejszania liczby zmiennych w zbiorze danych. Najpopularniejszą techniką redukcji wymiarowości jest analiza głównych składowych (PCA). PCA jest najpopularniejszą techniką redukcji wymiarowości ze względu na swoją prostotę, matematyczną elegancję i wysokie właściwości statystyczne. PCA służy do zmniejszania wymiarowości zbioru danych poprzez identyfikację osi, która zawiera najwięcej wariancji i najmniej błędów.