Drzewo decyzyjne w R: komponenty, typy, kroki do zbudowania, wyzwania

Opublikowany: 2020-04-02

„Drzewo decyzyjne w R” to graficzna reprezentacja wyborów, których można dokonać i jakie mogą być ich wyniki. Jest reprezentowany w postaci drzewa graficznego. Różne części drzewa reprezentują różne działania decydenta. Jest to skuteczny sposób na wizualne przedstawienie różnych możliwości i wyników konkretnego działania.

Spis treści

Dlaczego powinienem używać drzewa decyzyjnego w R?

Możesz kwestionować znaczenie drzew decyzyjnych w R . Drzewa decyzyjne nie tylko przedstawiają problem i różne rozwiązania, ale także wszystkie możliwe opcje. Te opcje mogą stanowić wyzwanie, przed którym staje decydent, aby zaproponować szerszy zakres rozwiązań.

Pomaga również analizować różne możliwe konsekwencje problemu i planować z wyprzedzeniem. Daje kompleksowe ramy, dzięki czemu można łatwo określić ilościowo wartości różnych wyników. Jest to szczególnie ważne, gdy pojawia się prawdopodobieństwo warunkowe.

Jakie są różne części drzewa decyzyjnego w R?

Aby zrozumieć i zinterpretować znaczenie drzewa decyzyjnego, musisz zrozumieć, czym są poszczególne części drzewa decyzyjnego. Możesz natknąć się na te terminy bardzo często, gdy spojrzysz na drzewa decyzyjne.

Węzły: Węzły drzewa reprezentują zdarzenie, które miało miejsce lub wybór, którego musi dokonać decydent.
Krawędzie: Są to różne warunki lub reguły, które są ustawione.
Węzeł główny: pokazuje całą populację lub próbkę w przypadku wizualizacji próbki.
Podział: Dzieje się to, gdy węzeł jest podzielony na podwęzły.
Węzły decyzyjne: są to konkretne podwęzły, które dzielą się dalej.
Liść: Są to terminy końcowe lub węzły, które również się nie dzielą.
Przycinanie: Jest to usuwanie pod-węzłów węzła decyzyjnego.
Gałąź: Są to podsekcje całego drzewa decyzyjnego.

Przeczytaj: Nauka o danych a nauka o decyzjach

Jak mogę użyć drzewa decyzyjnego w R?

Ponieważ drzewa decyzyjne można tworzyć tylko w R, musisz najpierw zainstalować R. Można to zrobić bardzo szybko online. Po pobraniu R musisz utworzyć i zwizualizować pakiety, aby używać drzew decyzyjnych. Jednym z pakietów, który na to pozwala, jest „impreza”. Po wpisaniu polecenia install.package („impreza”) można użyć reprezentacji drzewa decyzyjnego. Drzewa decyzyjne są również uważane za skomplikowane i nadzorowane algorytmy.

Jak działają drzewa decyzyjne w R?

Drzewa decyzyjne są częściej wykorzystywane w uczeniu maszynowym i eksploracji danych, gdy używasz R. Istotnym elementem używanym w tym przypadku są dane obserwowane lub uczące. Następnie tworzony jest kompleksowy model. Zestaw danych walidacyjnych jest również używany do uaktualniania i ulepszania drzewa decyzyjnego.

Dowiedz się więcej: Wizualizacja danych w programowaniu R

Jakie są rodzaje drzew decyzyjnych?

Najważniejszymi rodzajami drzew decyzyjnych są drzewa klasyfikacyjne i regresyjne. Są one zwykle używane, gdy wejścia i wyjścia są kategoryczne.

Drzewa klasyfikacyjne: Są to modele drzewiaste, w których zmienna może przyjmować określony zestaw wartości. W takich przypadkach liście reprezentują etykiety klas, podczas gdy gałęzie reprezentują spójniki innej cechy. Zazwyczaj jest to drzewo typu „tak” lub „nie”.

Drzewa regresji: Istnieją drzewa decyzyjne, które mają zmienną, która może przyjmować wartości ciągłe.

Kiedy połączysz oba powyższe typy drzew decyzyjnych, otrzymasz CART lub drzewa klasyfikacji i regresji. To termin parasolowy, z którym możesz się spotkać kilka razy. Odnoszą się one do wyżej wymienionych procedur. Jedyną różnicą w tych dwóch jest rodzaj zmiennych zależnych – kategoryczny lub numeryczny.

Jakie są kroki związane z budowaniem drzewa decyzyjnego na R?

Krok 1: Importuj — zaimportuj zestaw danych, który chcesz przeanalizować.

Krok 2: Czyszczenie — zestaw danych musi zostać wyczyszczony.

Krok 3: Utwórz pociąg lub zestaw testowy — oznacza to, że algorytm musi zostać wytrenowany w celu przewidywania etykiet, a następnie użyty do wnioskowania.
Krok 4: Zbuduj model — do tego służy składnia rpart(). Oznacza to, że węzły kontynuują podział aż do osiągnięcia punktu, w którym dalsze podziały nie są możliwe.

Krok 5: Przewiduj swój zestaw danych — użyj składni przewidywania () dla tego kroku.

Krok 6: Pomiar wydajności — ten krok pokazuje dokładność matrycy.

Krok 7: Dostosuj hiperparametry — Aby kontrolować aspekty dopasowania, drzewo decyzyjne ma różne parametry. Parametry można kontrolować za pomocą funkcji rpart.control().

Przeczytaj także: Samouczek R dla początkujących

Jakie są wyzwania związane z używaniem drzewa decyzyjnego w R?

Przycinanie może być żmudnym procesem i musi być wykonane ostrożnie, aby uzyskać dokładne odwzorowanie. Może również wystąpić duża niestabilność w przypadku nawet niewielkiej zmiany. Jest więc bardzo niestabilny, co może być kłopotliwe dla użytkowników, zwłaszcza początkujących. Co więcej, w kilku przypadkach może nie przynieść pożądanych rezultatów i rezultatów.

Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Zawijanie

Jeśli chcesz dokonać optymalnego wyboru, mając jednocześnie świadomość konsekwencji, upewnij się, że wiesz, jak korzystać z drzewa decyzyjnego w R. Jest to schematyczne przedstawienie tego, co może się wydarzyć, a co nie. Istnieje kilka różnych elementów drzewa decyzyjnego, które wyjaśniono powyżej. Jest to popularny i potężny algorytm uczenia maszynowego.

Czym jest drzewo decyzyjne i jego kategorie?

Drzewo decyzyjne jest narzędziem pomocniczym, które posiada strukturę podobną do drzewa do modelowania prawdopodobnych wyników, możliwych konsekwencji, użyteczności, a także kosztów zasobów. Drzewa decyzyjne ułatwiają wyświetlanie różnych algorytmów za pomocą warunkowych instrukcji sterujących. Drzewo decyzyjne zawiera gałęzie reprezentujące różne kroki decyzyjne, które ostatecznie prowadzą do korzystnego wyniku.

W oparciu o zmienną docelową istnieją dwa główne typy drzew decyzyjnych.

1. Drzewo decyzyjne dotyczące zmiennych kategorialnych — w tym drzewie decyzyjnym zmienne docelowe są podzielone na różne kategorie. Kategorie określą, że każdy proces decyzyjny będzie należeć do jednej z kategorii i w żadnym wypadku nie ma szans na występowanie pośrednich.
2. Ciągłe drzewo decyzyjne zmiennych — w tym drzewie decyzyjnym znajduje się ciągła zmienna docelowa. Na przykład, jeśli dochód jakiejkolwiek osoby jest nieznany, można go poznać za pomocą dostępnych informacji, takich jak wiek, zawód i każda inna zmienna ciągła.

Jakie są zastosowania drzew decyzyjnych?

Istnieją dwa główne zastosowania drzew decyzyjnych.

1. Wykorzystywanie danych demograficznych do znajdowania potencjalnych klientów — każda organizacja może usprawnić swój budżet marketingowy na podejmowanie świadomych decyzji, tak aby pieniądze były wydawane we właściwym miejscu, mając na uwadze odpowiednie dane demograficzne.
2. Ocena potencjalnych możliwości rozwoju — drzewa decyzyjne są pomocne w ocenie danych historycznych w celu oceny potencjalnych możliwości rozwoju w każdej firmie i pomagają w ekspansji.

Jakie są zalety i wady drzew decyzyjnych?

Zalety-

1. Łatwy do odczytania i interpretacji — możesz łatwo czytać i interpretować dane wyjściowe drzew decyzyjnych nawet bez wiedzy statystycznej.
2. Łatwość przygotowania — drzewa decyzyjne wymagają bardzo niewielkiego wysiłku do przygotowania danych w porównaniu z jakąkolwiek inną techniką decyzyjną.
3. Mniejsze wymagania dotyczące czyszczenia danych — drzewa decyzyjne wymagają niewielkiego czyszczenia danych, ponieważ zmienne są już utworzone.

Niedogodności-

1. Niestabilna natura — największym ograniczeniem jest to, że drzewa decyzyjne są wysoce niestabilne w porównaniu z innymi technikami decyzyjnymi. Nawet jeśli nastąpi niewielka zmiana w danych, będzie to odzwierciedlać ogromną zmianę w strukturze decyzji.
2. Mniej skuteczne w przewidywaniu wyników zmiennej ciągłej — gdy zmienne muszą być podzielone na kilka kategorii, drzewa decyzyjne mają tendencję do utraty informacji.