Regresja drzewa decyzyjnego: co musisz wiedzieć w 2022 roku

Opublikowany: 2021-01-03

Po pierwsze, model regresji to model, który daje jako wynik wartość liczbową po podaniu pewnych wartości wejściowych, które są również liczbowe. Różni się to od tego, co robi model klasyfikacji. Klasyfikuje dane testowe na różne klasy lub grupy zaangażowane w dany problem.

Wielkość grupy może wynosić od 2 do 1000 lub więcej. Istnieją modele regresji wielorakiej, takie jak regresja liniowa, regresja wielowymiarowa, regresja grzbietowa, regresja logistyczna i wiele innych.

Modele regresji drzew decyzyjnych również należą do tej puli modeli regresji. Model predykcyjny klasyfikuje lub przewiduje wartość liczbową, która wykorzystuje reguły binarne do określenia wartości wyjściowej lub docelowej.

Model drzewa decyzyjnego, jak sama nazwa wskazuje, jest modelem podobnym do drzewa, który ma liście, gałęzie i węzły.

Spis treści

Terminologie do zapamiętania

Zanim zagłębimy się w algorytm, oto kilka ważnych terminologii, o których wszyscy powinniście wiedzieć.

1. Węzeł główny: jest to najwyższy węzeł, od którego zaczyna się podział.

2.Podział: Proces dzielenia pojedynczego węzła na wiele podwęzłów.

3. Węzeł końcowy lub węzeł liścia: Węzły, które nie są dalej dzielone, nazywane są węzłami końcowymi.

4.Pruning: Proces usuwania podwęzłów.

5. Węzeł nadrzędny: węzeł, który dzieli się dalej na podwęzły .

6. Węzeł podrzędny: podwęzły , które wyłoniły się z węzła nadrzędnego.

Przeczytaj: Przewodnik po algorytmie drzewa decyzyjnego

Jak to działa?

Drzewo decyzyjne dzieli zbiór danych na mniejsze podzbiory. Liść decyzyjny dzieli się na dwie lub więcej gałęzi, które reprezentują wartość badanego atrybutu. Najwyższy węzeł w drzewie decyzyjnym jest najlepszym predyktorem zwanym węzłem głównym. ID3 to algorytm budujący drzewo decyzyjne.

Stosuje podejście od góry do dołu, a podziały są dokonywane na podstawie odchylenia standardowego. Tylko dla szybkiej korekty, Odchylenie standardowe to stopień rozkładu lub rozproszenia zestawu punktów danych od jego średniej wartości.

Określa ilościowo ogólną zmienność dystrybucji danych. Wyższa wartość dyspersji lub zmienności oznacza, że większe jest odchylenie standardowe wskazujące na większy rozrzut punktów danych od wartości średniej. Do pomiaru jednorodności próbki używamy odchylenia standardowego.

Jeśli próbka jest całkowicie jednorodna, jej odchylenie standardowe wynosi zero. I podobnie, im wyższy stopień niejednorodności, tym większe będzie odchylenie standardowe. Średnia próbki i liczba próbek są wymagane do obliczenia odchylenia standardowego.

Używamy funkcji matematycznej — Współczynnik odchylenia, który decyduje, kiedy podział powinien się zatrzymać. Oblicza się go dzieląc odchylenie standardowe przez średnią wszystkich próbek.

Ostateczna wartość byłaby średnią węzłów liści. Powiedzmy na przykład, czy miesiąc listopad jest węzłem, który dzieli się dalej na różne pensje na przestrzeni lat w miesiącu listopadzie (do 2021 r.). Na rok 2022 wynagrodzenie za miesiąc listopad byłoby średnią wszystkich wynagrodzeń w węźle listopad.

Przechodząc do odchylenia standardowego dwóch klas lub atrybutów (jak w powyższym przykładzie, wynagrodzenie może być oparte na stawce godzinowej lub miesięcznej).

Aby skonstruować dokładne drzewo decyzyjne, celem powinno być znalezienie atrybutów, które zwracają się po obliczeniach i zwracają największą redukcję odchylenia standardowego. W prostych słowach najbardziej jednorodne gałęzie.

Proces tworzenia drzewa decyzyjnego dla regresji obejmuje cztery ważne kroki.

1. Najpierw obliczamy odchylenie standardowe zmiennej docelowej. Rozważ zmienną docelową jako wynagrodzenie, jak w poprzednich przykładach. Mając taki przykład, obliczymy odchylenie standardowe zbioru wartości wynagrodzeń.

2. W kroku 2 zestaw danych jest dalej dzielony na różne atrybuty. Mówiąc o atrybutach, ponieważ wartością docelową jest wynagrodzenie, możemy myśleć o możliwych atrybutach jako — miesiącach, godzinach, nastroju szefa, nominacji, roku w firmie i tak dalej. Następnie z powyższego wzoru obliczane jest odchylenie standardowe dla każdej gałęzi. otrzymane w ten sposób odchylenie standardowe jest odejmowane od odchylenia standardowego przed podziałem. Otrzymany wynik nazywa się redukcją odchylenia standardowego.

Zamówienie: rodzaje drzewa binarnego

3. Po obliczeniu różnicy, jak wspomniano w poprzednim kroku, najlepszym atrybutem jest ten, dla którego wartość redukcji odchylenia standardowego jest największa. Oznacza to, że odchylenie standardowe przed podziałem powinno być większe niż odchylenie standardowe przed podziałem. Właściwie bierze się modyfikację różnicy, więc odwrotnie jest również możliwe.

4. Cały zbiór danych jest klasyfikowany na podstawie ważności wybranego atrybutu. Na gałęziach innych niż liściaste metoda ta jest kontynuowana rekurencyjnie do momentu przetworzenia wszystkich dostępnych danych. Rozważmy teraz, że jako najlepszy atrybut podziału wybrano miesiąc na podstawie wartości redukcji odchylenia standardowego. Czyli będziemy mieć 12 oddziałów na każdy miesiąc. Te gałęzie zostaną dalej podzielone, aby wybrać najlepszy atrybut z pozostałego zestawu atrybutów.

5. W rzeczywistości wymagamy pewnych kryteriów wykończenia. W tym celu wykorzystujemy współczynnik odchylenia lub CV dla gałęzi, która staje się mniejsza niż pewien próg, np. 10%. Kiedy osiągamy to kryterium, zatrzymujemy proces budowy drzewka. Ponieważ nie ma dalszego podziału, wartość należąca do tego atrybutu będzie średnią wszystkich wartości w tym węźle.

Trzeba przeczytać: Klasyfikacja drzewa decyzyjnego

Realizacja

Regresję drzewa decyzyjnego można zaimplementować przy użyciu języka Python i biblioteki scikit-learn. Można go znaleźć pod adresem sklearn.tree.DecisionTreeRegressor.

Niektóre z ważnych parametrów są następujące

1.kryterium: Mierzenie jakości podziału. Jego wartością może być „mse” lub średni błąd kwadratowy, „friedman_mse” i „mae” lub średni błąd bezwzględny. Wartość domyślna to mse.

2.max_depth: Reprezentuje maksymalną głębokość drzewa. Wartość domyślna to Brak.

3.max_features: reprezentuje liczbę funkcji, których należy szukać przy podejmowaniu decyzji o najlepszym podziale. Wartość domyślna to Brak.

4.splitter: Ten parametr służy do wyboru podziału w każdym węźle. Dostępne wartości to „najlepsza” i „losowa”. Najlepsza jest wartość domyślna.

Przykład z dokumentacji sklearn

>>> ze sklearn.datasets importuj load_diabetes

>>> ze sklearn.model_selection import cross_val_score

>>> ze sklearn.tree import DecisionTreeRegressor

>>> X, y = load_cukrzyca(return_X_y= True )

>>> regresor = DecisionTreeRegressor(losowy_stan=0)

>>> cross_val_score(regresor, X, y, cv=10)

… # doctest: +POMIŃ

…

tablica([-0,39…, -0,46…, 0,02…, 0,06…, -0,50…,

0,16…, 0,11…, -0,73…, -0,30…, -0,00…])

Wniosek

Struktura Programu Data Science ma na celu ułatwienie Ci stania się prawdziwym talentem w dziedzinie Data Science, co ułatwia znalezienie najlepszego pracodawcy na rynku. Zarejestruj się już dziś, aby rozpocząć swoją przygodę ze ścieżką edukacyjną z upGrad!

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Czym jest analiza regresji w uczeniu maszynowym?

Regresja to zestaw algorytmów matematycznych używanych w uczeniu maszynowym do przewidywania ciągłego wyniku na podstawie wartości jednej lub większej liczby zmiennych predykcyjnych. W ramach nadzorowanego uczenia maszynowego analiza regresji jest podstawowym tematem. Po prostu pomaga w zrozumieniu relacji między zmiennymi. Rozpoznaje wpływ jednej zmiennej i jej aktywność na drugą zmienną. Do uczenia algorytmu regresji używane są zarówno charakterystyki wejściowe, jak i etykiety wyjściowe.

Co oznacza wielokoliniowość w uczeniu maszynowym?

Wielokoliniowość to stan, w którym niezależne zmienne w zbiorze danych są znacznie bardziej powiązane między sobą niż z innymi zmiennymi. W modelu regresji oznacza to, że jedną zmienną niezależną można przewidzieć na podstawie innej zmiennej niezależnej. Jeśli chodzi o wpływ zmiennych niezależnych w modelu, wielowspółliniowość może prowadzić do szerszych przedziałów ufności, co skutkuje mniej wiarygodnym prawdopodobieństwem. Nie powinna znajdować się w zbiorze danych, ponieważ zaburza ranking najbardziej afektywnej zmiennej.

Co oznacza pakowanie w uczenie maszynowe?

Gdy dostarczony zestaw danych jest zaszumiony, używane jest workowanie, które jest formą zespołowej strategii uczenia się, która zmniejsza wariancję. Agregacja Bootstrap to kolejny synonim pakowania. Bagging to proces wybierania losowej próbki danych ze zbioru uczącego z zamianą — to znaczy, że poszczególne punkty danych mogą być pobierane wiele razy. W uczeniu maszynowym algorytm losowego lasu jest w zasadzie rozszerzeniem procesu pakowania.