Regresja a klasyfikacja w uczeniu maszynowym: różnica między regresją a klasyfikacją

Opublikowany: 2020-11-12

Spis treści

Wstęp

W rozwiązywaniu problemów związanych z nauką o danych właściwe podejście ma kluczowe znaczenie i często może oznaczać różnicę między pomyłką a znalezieniem właściwego rozwiązania. Na początku naukowcy zajmujący się danymi często mają tendencję do mylenia tych dwóch rzeczy – nie mogąc określić drobnych szczegółów technicznych, które są ważne, aby zaatakować problem z odpowiednim podejściem.

Nawet w przypadku doświadczonych i doświadczonych naukowców zajmujących się danymi, różnice mogą łatwo pomylić, co sprawia, że zastosowanie odpowiedniego podejścia jest trudne. W tym dyskursie przyjrzymy się bliżej różnicom i podobieństwom z dwoma ważnymi algorytmami nauki o danych – klasyfikacją i regresją.

Oba te podejścia powinny być niezbędnymi narzędziami w arsenale naukowców zajmujących się danymi w rozwiązywaniu problemów biznesowych. Dlatego kluczowe znaczenie ma zrozumienie, aby wybrać odpowiednie modele, dokonać odpowiedniego dostrojenia i wdrożyć odpowiednie rozwiązanie, które da impuls Twojej firmie.

Przeczytaj: Pomysły na projekty uczenia maszynowego

Regresja a klasyfikacja

Po pierwsze, ważne podobieństwo – zarówno regresja, jak i klasyfikacja są podzielone na kategorie w ramach nadzorowanych podejść do uczenia maszynowego. Co to jest nadzorowane podejście do uczenia maszynowego? Jest to zestaw algorytmów uczenia maszynowego, które trenują model przy użyciu zestawów danych ze świata rzeczywistego (zwanych zestawami danych uczących) w celu przewidywania.

Dane używane do trenowania modelu muszą być dobrze oznakowane i czyste; model na podstawie danych uczących nauczy się relacji między zmiennymi niezależnymi a zmienną predykcyjną. Jest to przeciwieństwo nienadzorowanego podejścia do uczenia maszynowego, które wymaga od modelu samodzielnego zidentyfikowania wzorców w danych, a tym samym znalezienia funkcji mapowania poprzez zbadanie wzorców właściwych dla zbioru danych.

Podejście nadzorowanego uczenia maszynowego próbuje rozwiązać funkcję mapującą, y = f(x), gdzie x odnosi się do zmiennych wejściowych, a y jest funkcją mapującą. Rozwiązując funkcję mapowania, można go szybko i wygodnie przenieść do zbioru danych ze świata rzeczywistego.

Mogą to robić zarówno funkcje klasyfikacji, jak i regresji, a także każde inne podejście do nadzorowanego uczenia maszynowego. Ale istotna różnica i podejścia do regresji polegają na tym, że podczas gdy w regresji zmienna wyjściowa „y” jest liczbowa i ciągła (może być wartością całkowitą lub zmiennoprzecinkową) , w algorytmie klasyfikacji zmienna wyjściowa „y” jest dyskretna i kategoryczny.

Jeśli więc przewidujesz zmienne, takie jak wynagrodzenie, oczekiwana długość życia, prawdopodobieństwo odejścia – wtedy te zmienne będą liczbowe i ciągłe.

Załóżmy na przykład , że instytucja finansowa jest zainteresowana profilowaniem swoich wnioskodawców pożyczkowych w celu oceny prawdopodobieństwa niewykonania zobowiązania. Naukowiec zajmujący się danymi może podejść do problemu na dwa główne sposoby – może albo przypisać każdemu wnioskującemu o pożyczkę prawdopodobieństwo (będące zakresem ciągłych liczb zmiennoprzecinkowych od 0 do 1), albo po prostu podać zestaw binarnych danych wyjściowych: odpowiadający Pozytywny/Niepowodzenie.

Oba podejścia przyjmą ten sam zestaw zmiennych wejściowych – takich jak historia kredytowa kandydata, informacje o wynagrodzeniu, dane demograficzne, wiek, warunki makroekonomiczne itp. Ale różnica między tymi dwoma podejściami polega na tym, że podczas gdy to pierwsze ocenia każdego kandydata, co może być przydatne do dokonywać relatywistycznych obliczeń, np. o ile bardziej prawdopodobne jest, że jedna osoba kontra druga.

Dane wyjściowe można wykorzystać również do innych analiz. Jednak w tym drugim przypadku algorytm klasyfikuje cały zestaw danych poszczególnych profili na Tak lub Nie, co może następnie posłużyć do oceny, czy można bezpiecznie przyznać kredyt. Należy zauważyć, że zarówno klasy tak, jak i nie mogą mieć znaczne różnice w obrębie podklasy.

Ale tutaj, przy podejściu klasyfikacyjnym, nie jesteśmy zainteresowani ustalaniem zmienności w obrębie każdej podgrupy. Klasyfikacja może być wykorzystywana do innych celów, takich jak klasyfikowanie, czy przychodząca wiadomość e-mail jest spamem, czy nie.

Z drugiej strony przewidywanie pogody (pogoda może przyjmować szereg ciągłych wartości) będzie zazwyczaj wymagało podejścia regresji. Jeśli zamiast tego bylibyśmy zainteresowani tylko przewidywaniem, czy będzie padać deszcz, czy nie, wtedy ten sam zestaw danych pogodowych mógłby być bardziej odpowiednio umieszczony w systemie klasyfikacji. Jak więc widzimy, przypadek użycia określi, który algorytm będzie bardziej odpowiedni do użycia.

Algorytmy regresji składają się między innymi z regresji liniowej, regresji wielowymiarowej, modeli wektorów nośnych i drzewa regresji. Podejście do klasyfikacji wykorzystuje między innymi drzewa decyzyjne, naiwne Bayesa, regresję logistyczną.

Dzięki zrozumieniu różnicy między tymi podejściami i algorytmami będziesz w stanie lepiej wybrać i zastosować właściwe do przypadków użycia w Twojej firmie – pomagając w ten sposób szybko znaleźć właściwe rozwiązanie.

Typy algorytmów klasyfikacji i regresji

Zagłębmy się i zrozummy każdy z tych typów algorytmów, które są używane w regresji i klasyfikacji.

Regresja liniowa — w regresji liniowej związek między dwiema zmiennymi szacuje się, wykreślając prostą, najlepiej dopasowaną linię. Będą inne pomiary potrzebne do zmierzenia siły najlepiej dopasowanej linii, takie jak między innymi siła dopasowania, wariancja, odchylenie standardowe, wartość r-kwadrat. Dowiedz się więcej o modelach regresji w uczeniu maszynowym.

Regresja wielomianowa — w modelach regresji wielomianowej mierzy się relacje między „kilkoma” zmiennymi wejściowymi a predyktorem lub zmienną „wyjściową”. Dowiedz się więcej o modelach regresji.

Algorytm drzewa decyzyjnego – w algorytmie drzewa decyzyjnego zbiór danych jest klasyfikowany za pomocą drzewa decyzyjnego – gdzie każdy węzeł drzewa jest przypadkiem testowym, a każda gałąź powstająca w każdym węźle drzewa odpowiada możliwej wartości atrybutu.

Przeczytaj: Jak stworzyć idealne drzewo decyzyjne?

Algorytm losowego lasu – Losowy las, jak sama nazwa wskazuje, jest tworzony przez dodanie kilku algorytmów drzewa decyzyjnego. Model następnie agreguje dane wyjściowe z różnych drzew decyzyjnych i przedstawia ostateczną prognozę, która następuje w wyniku głosowania większością poszczególnych drzew decyzyjnych.

Ostateczny wynik uzyskany przez drzewo decyzyjne jest dokładniejszy niż ten dostarczany przez którekolwiek z poszczególnych drzew decyzyjnych. „Lasy losowe często cierpią z powodu problemów z nadmiernym dopasowaniem, ale można je dostroić za pomocą walidacji krzyżowej i innych metod

K najbliższy sąsiad – K najbliższy sąsiad to solidny algorytm klasyfikacji, który działa na zasadzie, że podobne rzeczy pozostają blisko siebie. Kiedy nowa zmienna jest umieszczana w algorytmie predykcji, próbuje przypisać do grupy na podstawie jej bliskości do zbiorów danych. Dowiedz się więcej o KNN.

Wniosek

Jako naukowiec zajmujący się danymi musisz mieć podstawową i niezbędną wiedzę na temat różnych podejść do klasyfikacji i regresji, zastosowane techniki pomogą ci jako naukowcowi w zastosowaniu odpowiedniego zestawu narzędzi, aby znaleźć odpowiednie rozwiązanie, które przyniesie korzyści Twój interes.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Poprowadź rewolucję technologiczną napędzaną sztuczną inteligencją

DYPLOM PG Z UCZENIA MASZYNOWEGO I SZTUCZNEJ INTELIGENCJI

Ucz się więcej