5 rodzajów algorytmów klasyfikacji w uczeniu maszynowym [2022]

Opublikowany: 2021-01-02

Spis treści

Wstęp

Uczenie maszynowe to jeden z najważniejszych tematów w Sztucznej Inteligencji. Jest on dalej podzielony na uczenie nadzorowane i nienadzorowane, które można powiązać z analizą danych oznaczonych i nieoznakowanych lub przewidywaniem danych. W uczeniu nadzorowanym mamy jeszcze dwa rodzaje problemów biznesowych, zwane regresją i klasyfikacją.

Klasyfikacja to algorytm uczenia maszynowego, w którym otrzymujemy oznaczone dane jako dane wejściowe i musimy przewidzieć dane wyjściowe do klasy. Jeśli istnieją dwie klasy, nazywa się to klasyfikacją binarną. Jeśli istnieje więcej niż dwie klasy, nazywa się to klasyfikacją wieloklasową. W rzeczywistych scenariuszach mamy tendencję do obserwowania obu typów Klasyfikacji.

W tym artykule przyjrzymy się kilku rodzajom algorytmów klasyfikacji wraz z ich zaletami i wadami. Dostępnych jest tak wiele algorytmów klasyfikacji, ale skupmy się na poniższych 5 algorytmach:

Regresja logistyczna
K Najbliższy sąsiad
Drzewa decyzyjne
Losowy las
Maszyny wektorów nośnych

1. Regresja logistyczna

Chociaż nazwa sugeruje regresję, jest to algorytm klasyfikacji. Regresja logistyczna to statystyczna metoda klasyfikacji danych, w której istnieje co najmniej jedna niezależna zmienna lub cecha określająca wynik mierzony za pomocą zmiennej (TARGET), która ma dwie lub więcej klas. Jego głównym celem jest znalezienie najlepiej dopasowanego modelu opisującego związek między zmienną docelową a zmiennymi niezależnymi.

Plusy

1) Łatwy do wdrożenia, interpretacji i skuteczny w szkoleniu, ponieważ nie przyjmuje żadnych założeń i jest szybki w klasyfikowaniu.

2) Może być używany do klasyfikacji wieloklasowej.

3) Jest mniej podatny na nadmierne dopasowanie, ale przesadza w wielowymiarowych zestawach danych.

Cons

1) Overfits, gdy obserwacje są mniejsze niż cechy.

2) Działa tylko z funkcjami dyskretnymi.

3) Nieliniowych problemów nie da się rozwiązać.

4) Trudne do nauczenia się złożonych wzorców, a sieci neuronowe zwykle je przewyższają.

2. K Najbliższy sąsiad

Algorytm K-najbliższych sąsiadów (KNN) wykorzystuje technikę „podobieństwa cech” lub „najbliżsi sąsiedzi” do przewidywania klastra, do którego należy nowy punkt danych. Poniżej kilka kroków, na podstawie których możemy lepiej zrozumieć działanie tego algorytmu

Krok 1 – Do implementacji dowolnego algorytmu w uczeniu maszynowym potrzebujemy oczyszczonego zestawu danych gotowych do modelowania. Załóżmy, że mamy już wyczyszczony zbiór danych, który został podzielony na zbiór danych uczących i testowych.

Krok 2 − Ponieważ mamy już gotowe zestawy danych, musimy wybrać wartość K (liczba całkowita), która mówi nam, ile najbliższych punktów danych musimy wziąć pod uwagę, aby zaimplementować algorytm. Jak określić wartość k, możemy dowiedzieć się w dalszych etapach artykułu.

Krok 3 – Ten krok jest etapem iteracyjnym i należy go zastosować dla każdego punktu danych w zbiorze danych

Oblicz odległość między danymi testowymi a każdym rzędem danych treningowych za pomocą dowolnego miernika odległości
Odległość euklidesowa
Odległość Manhattanu
Odległość Minkowskiego
Odległość Hamminga.

Wielu naukowców zajmujących się danymi ma tendencję do używania odległości euklidesowych, ale możemy poznać znaczenie każdego z nich w dalszej części tego artykułu.

Musimy posortować dane na podstawie miernika odległości, którego użyliśmy w powyższym kroku.

Wybierz górne K wierszy w przekształconych posortowanych danych.

Następnie przypisze klasę do punktu testowego na podstawie najczęstszej klasy tych wierszy.

Krok 4 – Koniec

Plusy

Łatwy w użyciu, zrozumieniu i interpretacji.
Szybki czas obliczeń.
Brak założeń dotyczących danych.
Wysoka dokładność prognoz.
Wszechstronny — może być używany zarówno w przypadku problemów biznesowych z klasyfikacją, jak i regresją.
Może być również używany do problemów z wieloma klasami.
Mamy tylko jeden parametr Hyper do dostrojenia w kroku Hyperparameter Tuning.

Cons

Kosztowne obliczeniowo i wymaga dużej ilości pamięci, ponieważ algorytm przechowuje wszystkie dane treningowe.
Algorytm staje się wolniejszy wraz ze wzrostem zmiennych.
Jest bardzo wrażliwy na nieistotne cechy.
Przekleństwo wymiarowości.
Wybór optymalnej wartości K.
Niezrównoważony zestaw danych klas spowoduje problem.
Brakujące wartości w danych również powodują problem.

Przeczytaj: Pomysły na projekty uczenia maszynowego

3. Drzewa decyzyjne

Drzewa decyzyjne mogą być używane zarówno do klasyfikacji, jak i regresji, ponieważ mogą obsługiwać zarówno dane liczbowe, jak i kategoryczne. Dzieli zestaw danych na coraz mniejsze podzbiory lub węzły w miarę rozwoju drzewa. Drzewo decyzyjne zawiera dane wyjściowe z węzłami decyzyjnymi i liśćmi, w których węzeł decyzyjny ma co najmniej dwie gałęzie, podczas gdy węzeł liścia reprezentuje decyzję. Najwyższy węzeł odpowiadający najlepszemu predyktorowi nazywany jest węzłem głównym.

Plusy

Proste do zrozumienia
Łatwa wizualizacja
Mniej danych Interpretacja
Obsługuje zarówno dane liczbowe, jak i kategoryczne.

Cons

Czasami nie uogólniają dobrze
Niestabilny na zmiany w danych wejściowych

4. Losowe lasy

Lasy losowe to zespołowa metoda uczenia się, której można użyć do klasyfikacji i regresji. Działa poprzez skonstruowanie kilku drzew decyzyjnych i wyprowadza wyniki, biorąc średnią wszystkich drzew decyzyjnych w regresji lub głosowaniu większościowym w problemach klasyfikacji. Już sama nazwa wskazuje, że grupa drzew nazywa się Lasem.

Plusy

Może obsługiwać duże zbiory danych.
Podaje znaczenie zmiennych.
Potrafi obsłużyć brakujące wartości.

Cons

Jest to algorytm czarnej skrzynki.
Powolne przewidywanie w czasie rzeczywistym i złożone algorytmy.

5. Wsparcie maszyn wektorowych

Maszyna wektorów nośnych jest reprezentacją zbioru danych w postaci punktów w przestrzeni rozdzielonych na kategorie wyraźną przerwą lub linią, która jest możliwie najdalej wysunięta. Nowe punkty danych są teraz mapowane w tej samej przestrzeni i klasyfikowane jako należące do kategorii na podstawie tego, po której stronie linii lub separacji leżą.

Plusy

Działa najlepiej w przestrzeniach wielowymiarowych.
Wykorzystuje podzbiór treningowych punktów danych w funkcji decyzyjnej, co czyni go algorytmem wydajnym pamięciowo.

Cons

Nie poda szacunków prawdopodobieństwa.
Potrafi obliczyć szacunki prawdopodobieństwa za pomocą walidacji krzyżowej, ale jest to czasochłonne.

Przeczytaj także: Kariera w uczeniu maszynowym

Wniosek

W tym artykule omówiliśmy 5 algorytmów klasyfikacji, ich krótkie definicje, zalety i wady. To tylko kilka algorytmów, które omówiliśmy, ale istnieją bardziej wartościowe algorytmy, takie jak naiwne Bayes, sieci neuronowe, uporządkowana regresja logistyczna. Nie można powiedzieć, który algorytm działa dobrze dla którego problemu, więc najlepszą praktyką jest wypróbowanie kilku i wybranie ostatecznego modelu na podstawie metryk oceny.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Jaki jest główny cel stosowania regresji logistycznej?

Regresję logistyczną stosuje się głównie w prawdopodobieństwach statystycznych. Wykorzystuje równanie regresji logistycznej w celu zrozumienia związku między zmiennymi zależnymi a zmiennymi niezależnymi obecnymi w danych danych. Odbywa się to poprzez oszacowanie prawdopodobieństw poszczególnych zdarzeń. Model regresji logistycznej jest bardzo podobny do modelu regresji liniowej, jednak preferowane jest ich stosowanie, gdy zmienna zależna podana w danych jest dychotomiczna.

Czym SVM różni się od regresji logistycznej?

Chociaż SVM zapewnia większą dokładność niż modele regresji logistycznej, jest skomplikowany w użyciu, a zatem nie jest przyjazny dla użytkownika. W przypadku dużych ilości danych korzystanie z SVM nie jest preferowane. Podczas gdy SVM służy do rozwiązywania zarówno problemów regresji, jak i klasyfikacji, regresja logistyczna dobrze rozwiązuje tylko problemy klasyfikacji. W przeciwieństwie do SVM, nadmierne dopasowanie jest częstym zjawiskiem podczas korzystania z regresji logistycznej. Ponadto regresja logistyczna jest bardziej podatna na wartości odstające w porównaniu z maszynami wektora pomocniczego.

Czy drzewo regresji jest rodzajem drzewa decyzyjnego?

Tak, drzewa regresji to zasadniczo drzewa decyzyjne używane do zadań regresji. Modele regresji służą do zrozumienia relacji między zmiennymi zależnymi a zmiennymi niezależnymi, które faktycznie powstały w wyniku podziału początkowego zbioru danych. Drzew regresji można używać tylko wtedy, gdy drzewo decyzyjne składa się z ciągłej zmiennej docelowej.