Plusy i minusy regresji drzewa decyzyjnego w uczeniu maszynowym

Opublikowany: 2020-12-24

Jeden z najpopularniejszych algorytmów uczenia maszynowego, regresja drzewa decyzyjnego, jest używany zarówno przez konkurentów, jak i specjalistów od analityki danych. Są to modele predykcyjne, które obliczają wartość docelową na podstawie zestawu reguł binarnych.

Służy do budowania modeli regresji i klasyfikacji w formie struktury drzewiastej. Zbiory danych są dzielone na mniejsze podzbiory w drzewie decyzyjnym, podczas gdy powiązane drzewo decyzyjne jest budowane przyrostowo jednocześnie.

Drzewo decyzyjne służy do uzyskania oszacowania na podstawie wykonania serii pytań na zbiorze danych. Zadając te pytania typu prawda/fałsz, model jest w stanie zawęzić możliwe wartości i dokonać prognozy. O kolejności i treści pytania decyduje sam model.

Spis treści

Jakie są warunki drzewa decyzyjnego?

Drzewo decyzyjne ma gałęzie, węzły, liście itp. Węzeł korzeń jest początkowym węzłem reprezentującym całą próbkę lub populację i może być dalej dzielony na inne węzły lub jednorodne zbiory. Węzeł decyzyjny składa się z co najmniej dwóch węzłów, które reprezentują oddzielne wartości testowanego atrybutu.

Węzeł-liść/terminal nie dzieli się na kolejne węzły i reprezentuje decyzję. Gałąź lub poddrzewo to podsekcja całego drzewa. Podział to proces dzielenia węzła na dwa lub więcej podwęzłów. Przeciwieństwem dzielenia jest przycinanie, czyli usuwanie podwęzłów węzła decyzyjnego. Węzeł nadrzędny to węzeł, który zostaje podzielony na podwęzły, a podwęzeł jest węzłem podrzędnym.

Powiązane: Przewodnik po algorytmie drzewa decyzyjnego

Jak to działa?

Algorytm drzewa decyzyjnego wykorzystuje punkt danych i przechodzi przez całe drzewo, zadając pytania prawda/fałsz. Zaczynając od węzła głównego, zadawane są pytania, a dla każdej odpowiedzi tworzone są oddzielne gałęzie, a to trwa aż do osiągnięcia węzła liścia. Partycjonowanie rekurencyjne jest używane do konstruowania drzewa.

Drzewo decyzyjne to nadzorowany model uczenia maszynowego, dlatego uczy się mapować dane na dane wyjściowe w fazie uczenia budowania modelu. Odbywa się to poprzez dopasowanie modelu do danych historycznych, które muszą być istotne dla problemu, wraz z jego prawdziwą wartością, którą model powinien nauczyć się dokładnie przewidywać. Pomaga to modelowi poznać relacje między danymi a zmienną docelową.

Po tej fazie drzewo decyzyjne jest w stanie zbudować podobne drzewo, obliczając pytania i ich kolejność, co pomoże mu w jak najdokładniejszym oszacowaniu. W związku z tym przewidywanie zależy od danych uczących, które są wprowadzane do modelu.

Jak zapada decyzja o podziale?

Decyzja o podziale jest inna w przypadku drzew klasyfikacyjnych i regresyjnych, a dokładność przewidywania drzewa jest w dużym stopniu od tego zależna. Błąd średniokwadratowy (MSE) jest zwykle używany do podjęcia decyzji, czy podzielić węzeł na dwa lub więcej podwęzłów w regresji drzewa decyzyjnego . W przypadku drzewa binarnego algorytm wybiera wartość i dzieli dane na dwa podzbiory, oblicza MSE dla każdego podzbioru i jako wynik wybiera najmniejszą wartość MSE.

Implementacja regresji drzewa decyzyjnego

Podstawową strukturę implementacji algorytmu regresji drzewa decyzyjnego przedstawiono w poniższych krokach.

Importowanie bibliotek

Pierwszym krokiem do opracowania dowolnego modelu uczenia maszynowego jest zaimportowanie wszystkich potrzebnych bibliotek do rozwoju.

Ładowanie danych

Po zaimportowaniu bibliotek kolejnym krokiem jest załadowanie zestawu danych. Dane można pobrać lub wykorzystać z lokalnych folderów użytkownika.

Dzielenie zbioru danych

Po załadowaniu danych należy je podzielić na zestaw uczący i zestaw testowy oraz utworzyć zmienne x i y. Należy również zmienić kształt wartości, aby dane miały wymagany format.

Trening modelki

Tutaj model regresji drzewa danych jest szkolony przy użyciu zestawu szkoleniowego utworzonego w poprzednim kroku.

Przewidywanie wyników

W tym miejscu wyniki zestawu testowego są przewidywane przy użyciu modelu wytrenowanego w zestawie uczącym.

Ocena modelu

Wydajność modelu jest sprawdzana przez porównanie wartości rzeczywistych i przewidywanych w ostatnim kroku. Dokładność modelu można wywnioskować porównując te wartości. Wizualizacja wyników poprzez tworzenie wykresu wartości pomaga również w ocenie dokładności modelu.

Przeczytaj: Jak stworzyć idealne drzewo decyzyjne?

Zalety

Model drzewa decyzyjnego może być używany zarówno do problemów klasyfikacji, jak i regresji, i jest łatwy do interpretacji, zrozumienia i wizualizacji.
Dane wyjściowe drzewa decyzyjnego również mogą być łatwo zrozumiałe.
W porównaniu z innymi algorytmami przygotowanie danych podczas wstępnego przetwarzania w drzewie decyzyjnym wymaga mniej wysiłku i nie wymaga normalizacji danych.
Wdrożenie można również wykonać bez skalowania danych.
Drzewo decyzyjne to jeden z najszybszych sposobów identyfikacji relacji między zmiennymi a najistotniejszą zmienną.
Można również tworzyć nowe funkcje w celu lepszego przewidywania zmiennych docelowych.
Na drzewa decyzyjne nie mają dużego wpływu wartości odstające lub brakujące wartości i może obsługiwać zarówno zmienne liczbowe, jak i jakościowe.
Ponieważ jest to metoda nieparametryczna, nie ma żadnych założeń dotyczących rozkładów przestrzennych i struktury klasyfikatorów.

Niedogodności

Overfitting jest jedną z praktycznych trudności modeli drzew decyzyjnych. Dzieje się tak, gdy algorytm uczący kontynuuje opracowywanie hipotez, które zmniejszają błąd zestawu uczącego, ale kosztem zwiększenia błędu zestawu testowego. Ale ten problem można rozwiązać, przycinając i ustawiając ograniczenia na parametry modelu.
Drzew decyzyjnych nie można dobrze używać z ciągłymi zmiennymi liczbowymi.
Niewielka zmiana danych zwykle powoduje dużą różnicę w strukturze drzewa, co powoduje niestabilność.
Wymagane obliczenia mogą również stać się złożone w porównaniu z innymi algorytmami, a trenowanie modelu zajmuje więcej czasu.
Jest to również stosunkowo drogie, ponieważ czas i poziom złożoności są większe.

Wniosek

Algorytm regresji drzewa decyzyjnego został wyjaśniony w tym artykule , opisując sposób budowy drzewa wraz z krótkimi definicjami różnych terminów, które go dotyczą. Zawarty jest również krótki opis działania drzewa decyzyjnego oraz podejmowania decyzji o podziale dowolnego węzła.

Jak można wdrożyć podstawową regresję drzewa decyzyjnego, wyjaśniono również za pomocą sekwencji kroków. Na koniec przedstawiono zalety i wady algorytmu drzewa decyzyjnego.

Jeśli chcesz dowiedzieć się więcej o drzewach decyzyjnych, uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznych szkoleń, ponad 30 studiów przypadków i zadań , status absolwentów IIIT-B, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Czym jest regresja w uczeniu maszynowym?

Regresja służy do przewidywania zmiennych ciągłych. To wtedy musimy przewidzieć liczbę. Na przykład, jeśli chcesz przewidzieć ceny domów w mieście na podstawie cech, takich jak wielkość domu i powierzchnia miasta, zostanie użyta regresja. Problemy regresji są bardzo łatwe do rozwiązania za pomocą regresji liniowej. W skrócie, regresja to czynność szacowania nieznanej wartości wyjściowej na podstawie wartości wejściowej.

Czym są drzewa decyzyjne?

Drzewo decyzyjne to diagram, który pokazuje wszystkie możliwe decyzje i możliwe wyniki. Drzewa decyzyjne są często używane do badania wpływu decyzji na przyszłe wyniki. Na przykład drzewo decyzyjne może pomóc firmie przeanalizować, czy powinna kupić dodatkowe magazyny, czy zbudować nowe centrum dystrybucyjne. Generalnie drzewa decyzyjne są wykorzystywane w badaniach operacyjnych i naukach o zarządzaniu. Drzewa decyzyjne są powszechną i popularną koncepcją w podejmowaniu decyzji i planowaniu programów. Można ich używać przy wyborze między kierunkami działania, gdy niektóre z możliwych kierunków wzajemnie się wykluczają i gdy wynik każdego działania zależy od stanu świata.

Jakie są zalety i wady drzew decyzyjnych?

Model drzew decyzyjnych może być używany do dowolnej klasy problemów, zarówno do klasyfikacji, jak i predykcji numerycznej. Można go rozszerzyć na dowolną klasę problemów. Może być używany zarówno do klasyfikacji nadzorowanej, jak i nienadzorowanej. Może obsługiwać mieszankę funkcji numerycznych i kategorycznych. Daje stabilne rezultaty. Trudno jednak zrozumieć przyczynę tej prognozy. Należy rozumieć, że model nie uczy się najlepszego podziału w każdym węźle drzewa, ale uczy się rozkładu prawdopodobieństwa klasy w każdym węźle. To wymaganie powoduje, że model jest intensywny obliczeniowo i uniemożliwia obsługę dużej ilości danych.