Wprowadzenie do algorytmu klasyfikacji: pojęcia i różne typy

Opublikowany: 2020-04-13

Algorytmy klasyfikacji pomagają podzielić dane na różne klasy. Podobnie jak w przypadku sortowania rzeczy podczas pakowania, algorytm klasyfikacji pomaga w klasyfikowaniu danych. W tym artykule przyjrzymy się, czym są algorytmy klasyfikacji, rodzajom algorytmów klasyfikacji, niektórym podstawowym pojęciom tego tematu i sposobom ich działania.

Spis treści

Co oznacza klasyfikacja?

Aby przewidzieć klasę docelową, kiedy używamy naszego uczącego zestawu danych do uzyskania warunków brzegowych, nazywamy tę klasyfikację procesu. Istnieje wiele rodzajów klas docelowych, które możesz osiągnąć. Załóżmy na przykład, że na podstawie posiadanych danych klientów chcesz przewidzieć, czy Twoi klienci kupią określony produkt, czy nie. W tym przypadku klasami docelowymi byłyby „Tak” lub „Nie”.

Z drugiej strony możesz chcieć sklasyfikować warzywa według ich wagi, wielkości lub koloru. W tym scenariuszu dostępnymi klasami docelowymi mogą być szpinak, pomidor, cebula, ziemniak i kapusta. Możesz również przeprowadzić klasyfikację według płci, gdzie klasami docelowymi byłyby kobiety i mężczyźni.

Przyjrzyjmy się trochę, jak działa algorytm klasyfikacji, biorąc pod uwagę trzeci przykład. Możemy zachować długość włosów jako parametr funkcji, chociaż to tylko ze względu na ten przykład. Możemy wytrenować nasz model za pomocą algorytmu klasyfikacyjnego i pozwolić mu określić warunki brzegowe, aby dokonać rozróżnienia między płcią żeńską i męską poprzez zadany parametr cechy, czyli długość włosów.

Podstawowe pojęcia klasyfikacji

Zanim zaczniemy dalej omawiać algorytmy klasyfikacji, musisz zapoznać się z kilkoma definicjami. W ten sposób będziesz w stanie uniknąć późniejszych nieporozumień:

Cechy

Jest to indywidualna, mierzalna właściwość konkretnego zjawiska, które obserwujemy w danej chwili.

Klasyfikatory

Klasyfikator to algorytm, który mapuje dane wejściowe modelu do określonej kategorii.

Modele klasyfikacji

Modele klasyfikacyjne muszą zawierać wartości wejściowe, które nadajemy modelowi podczas uczenia. Modele te przewidują kategorie (etykiety klas) dla nowych danych, które im dostarczamy.

Klasyfikacja z wieloma etykietami

Klasyfikacja wieloetykietowa ma miejsce, gdy mapujemy każdą próbkę na zestaw etykiet docelowych wielu klas. Na przykład w tornistrze mogą znajdować się jednocześnie książki, pudełko na lunch i długopisy.

Klasyfikacja wieloklasowa

Klasyfikacja wieloklasowa polega na przypisaniu każdej próbki tylko do jednej etykiety docelowej. Ma to miejsce, gdy mamy więcej niż dwie klasy. Na przykład samochód może się poruszać lub stać, ale nie oba jednocześnie.

Klasyfikacja binarna

Klasyfikacja binarna ma miejsce, gdy mamy tylko dwie możliwe klasy. Na przykład płeć osoby może być płci męskiej lub żeńskiej.

Rodzaje algorytmów klasyfikacji

Oto wszystkie rodzaje algorytmów klasyfikacji:

Szacowanie jądra

(K-najbliższy sąsiad)

Klasyfikatory liniowe

(Regresja logistyczna, dyskryminator liniowy Fishera i klasyfikator Naive Bayes)

Klasyfikatory kwadratowe
Sieci neuronowe
Nauka kwantyzacji wektorowej
Wsparcie maszyn wektorowych

(najmniejsze kwadraty obsługują maszyny wektorowe)

Omówmy teraz niektóre z podstawowych typów algorytmów klasyfikacji:

Dowiedz się więcej: Rodzaje algorytmów uczenia maszynowego z przykładami przypadków użycia

K-najbliższy sąsiad

K-najbliższy sąsiad, znany również jako KNN, to popularny algorytm do rozwiązywania problemów regresji i klasyfikacji. Klasyfikuje nowe przypadki według głosów k-sąsiadów. Określamy k-najbliższych sąsiadów za pomocą funkcji odległości. Najpopularniejszą funkcją odległości jest Euklides, ale są też inne opcje, takie jak Manhattan i Hamming.

Aby zrozumieć KNN, możesz spojrzeć na przykład z życia wzięty. Załóżmy, że chcesz zaprzyjaźnić się z osobą, o której nie masz zbyt wielu informacji. Aby lepiej ich poznać, najpierw porozmawiaj z ich przyjaciółmi i kolegami, aby dowiedzieć się, jacy są. Tak działa algorytm KNN.

Korzystając z algorytmu k-najbliższego sąsiada, upewnij się, że normalizujesz zmienne, ponieważ zmienne o wyższym zakresie mogą powodować błąd systematyczny. Co więcej, algorytmy KNN są dość drogie obliczeniowo.

Drzewa decyzyjne

Drzewa decyzyjne pomagają przewidzieć możliwe wyniki zgodnie z serią wyborów. Jest to nadzorowany algorytm uczenia się i wykorzystuje różne funkcje ze zmiennymi ciągłymi i kategorycznymi zmiennymi zależnymi.

Załóżmy na przykład, że chcesz wyjść, aby kupić owoce dla siebie, ale zauważasz, że pogoda jest pochmurna. Teraz masz dwie możliwości, możesz iść, a może nie. Jeśli pójdziesz, może padać, a wtedy będziesz musiał wrócić z pustymi rękami. Z drugiej strony, jeśli nie pada deszcz, możesz kupić owoce, które chcesz kupić. To był prosty przykład zawierający wiele zmiennych, ale masz pomysł.

Przeczytaj także: Drzewo decyzyjne w R

Regresja logistyczna

Regresja logistyczna nie jest algorytmem regresji. Regresja logistyczna szacuje wartości dyskretne zgodnie z określonym zestawem zmiennych niezależnych. Innymi słowy, przewiduje szanse zdarzenia za pomocą funkcji logit. Dlatego też nosi nazwę regresji logitowej.

Ponieważ regresja logistyczna została zaprojektowana dla klasyfikacji, jest popularnym wyborem wśród ekspertów. Jest to również najbardziej odpowiedni algorytm do zrozumienia wpływu różnych zmiennych niezależnych na możliwy wynik. Jego wadą jest to, że działa tylko z przewidywalnymi zmiennymi binarnymi i zakłada, że jego dane nie zawierają żadnych braków danych.

Maszyna wektorów nośnych

W maszynie wektorów nośnych wartość każdej cechy jest wartością określonej współrzędnej, a każdy element jest punktem w przestrzeni n-wymiarowej. Tutaj 'n' oznacza liczbę posiadanych funkcji.

Załóżmy, że masz dwie cechy: długość włosów i wzrost. W tym przypadku najpierw wykreślilibyśmy te zmienne w przestrzeni dwuwymiarowej, a każdy punkt ma dwie współrzędne. Nazywamy te współrzędne Wektorami Wsparcia; dlatego ten algorytm nazywa się Support Vector Machine.

Po wykreśleniu tych punktów znajdziemy linię dzielącą dane na dwie wyraźnie sklasyfikowane grupy. Ta linia jest klasyfikatorem i utworzylibyśmy klasy według strony, na której znajdują się nasze dane testowe w wyniku końcowym.

Myśli końcowe

W tym blogu staraliśmy się jak najdokładniej wyjaśnić algorytmy klasyfikacji. Jeśli chcesz dowiedzieć się więcej na ten temat, proponujemy zajrzeć na naszego bloga, który jest wypełniony tego typu wartościowymi artykułami.

Możesz również przejść do naszego katalogu kursów uczenia maszynowego, aby dowiedzieć się więcej na ten temat. Jesteśmy pewni, że znajdziesz coś przydatnego.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Przygotuj się na karierę przyszłości

DYPLOM PG Z UCZENIA MASZYNOWEGO I SZTUCZNEJ INTELIGENCJI

Dowiedz się więcej @ AKTUALIZACJA