Przewodnik po algorytmie drzewa decyzyjnego: zastosowania, zalety i wady oraz przykłady

Opublikowany: 2020-12-10

Istnieją różne rodzaje algorytmów uczenia maszynowego, a każdy z nich ma unikalne zastosowania. W tym artykule przyjrzymy się jednemu z najpopularniejszych i najbardziej użytecznych algorytmów ML, algorytmowi drzewa decyzyjnego. Omówiliśmy przykład drzewa decyzyjnego w języku R, aby pomóc ci zapoznać się z jego użyciem. Zacznijmy.

Spis treści

Co to jest algorytm drzewa decyzyjnego?

Drzewo decyzyjne to rodzaj nadzorowanego algorytmu uczenia maszynowego, który ma węzeł główny i węzły liści. Każdy węzeł reprezentuje cechę, a powiązania między węzłami pokazują decyzję. Każdy liść reprezentuje wynik.

Załóżmy, że chcesz iść na targ, aby kupić warzywa. Masz dwie możliwości: albo idziesz, albo nie. Jeśli nie pójdziesz, nie dostaniesz warzyw, ale jeśli to zrobisz, będziesz musiał dostać się na targ, co prowadzi do innej sekcji wyboru. Drzewo decyzyjne działa tak samo.

Aplikacje drzew decyzyjnych

Oto kilka zastosowań drzew decyzyjnych:

Marketing:

Firmy mogą wykorzystywać drzewa decyzyjne do zwiększania dokładności swoich kampanii promocyjnych, obserwując wydajność produktów i usług konkurencji. Drzewa decyzyjne mogą pomóc w segmentacji odbiorców i wspierać firmy w tworzeniu lepiej ukierunkowanych reklam o wyższych współczynnikach konwersji.

Zatrzymanie Klientów:

Firmy wykorzystują drzewa decyzyjne do utrzymania klientów poprzez analizę ich zachowań i wypuszczanie nowych ofert lub produktów dopasowanych do tych zachowań. Korzystając z modeli drzew decyzyjnych, firmy mogą również określić poziom satysfakcji swoich klientów.

Diagnoza chorób i dolegliwości:

Drzewa decyzyjne mogą pomóc lekarzom i specjalistom medycznym w identyfikacji pacjentów, u których występuje większe ryzyko rozwoju poważnych (lub możliwych do uniknięcia) schorzeń, takich jak cukrzyca lub demencja. W takich przypadkach bardzo pomocna jest zdolność drzew decyzyjnych do zawężania możliwości według określonych zmiennych.

Wykrywanie oszustw:

Firmy mogą zapobiegać oszustwom, wykorzystując drzewa decyzyjne do wcześniejszego identyfikowania nieuczciwych zachowań. Może zaoszczędzić firmom wiele zasobów, w tym czasu i pieniędzy.

Zalety i wady drzew decyzyjnych

Zalety algorytmu drzewa decyzyjnego:

Oto główne zalety korzystania z drzewa decyzyjnego w R:

Zrozumienie wyników jest łatwiejsze niż w przypadku innych modeli. Możesz zlecić zespołowi technicznemu zaprogramowanie Twojego modelu drzewa decyzyjnego, dzięki czemu będzie on działał szybciej i będziesz mógł zastosować go do nowych instancji. Jego obliczenia mają testy włączenia według instancji, która jest modelem jakościowym lub ilościowym.
Jest nieparametryczny. Zmienne niezależne występujące w naszym problemie nie muszą z tego powodu podlegać żadnym określonym rozkładom prawdopodobieństwa. Możesz mieć zmienne współliniowe. Niezależnie od tego, czy dyskryminują, czy nie, nie ma to wpływu na twoje drzewo decyzyjne, ponieważ nie musi ono wybierać tych zmiennych.
Są w stanie pracować z brakującymi wartościami. CHAID umieszcza wszystkie brakujące wartości w kategorii, którą można połączyć z inną lub oddzielić od innych.
Skrajne indywidualne wartości (takie jak wartości odstające) nie mają dużego wpływu na drzewa decyzyjne. Możesz je izolować w małych węzłach, aby nie wpływały na całą klasyfikację.
Daje świetną wizualną reprezentację procesu decyzyjnego. Każda gałąź drzewa decyzyjnego oznacza czynniki, które mogą wpłynąć na Twoje decyzje, a Ty zobaczysz szerszy obraz. Możesz wykorzystać drzewa decyzyjne do usprawnienia komunikacji w swoim zespole.
Drzewa CART mogą bezpośrednio obsługiwać wszystkie typy zmiennych, w tym zmienne jakościowe, ciągłe i dyskretne.

Wady algorytmu drzewa decyzyjnego

Nie analizuje jednocześnie wszystkich zmiennych niezależnych. Zamiast tego ocenia je sekwencyjnie. Z tego powodu drzewo nigdy nie zmienia podziału węzła na żadnym poziomie, co może powodować stronniczość w wyborach drzewa.
Modyfikowanie nawet jednej zmiennej może wpłynąć na całe drzewo, jeśli jest blisko wierzchołka. Są sposoby na rozwiązanie tego problemu. Na przykład, możesz skonstruować drzewo na wielu próbkach i agregować je według średniej (lub głosu); nazywa się to resamplingiem. Prowadzi to jednak do innego zestawu problemów, ponieważ zmniejsza czytelność modelu, czyniąc go bardziej złożonym. Tak więc poprzez resampling możesz pozbyć się najlepszych cech drzew decyzyjnych. Dlaczego jest to problem? Załóżmy, że jedna zmienna ma wszystkie cechy określonej grupy, ale ma również jakość, według której drzewo się dzieli. W tym przypadku drzewo umieściłoby go w niewłaściwej klasie tylko dlatego, że ma tę ważną cechę.
Wszystkie węzły określonego poziomu w drzewie decyzyjnym zależą od węzłów na poprzednich poziomach. Innymi słowy, sposób zdefiniowania węzłów na poziomie „n +1” zależy całkowicie od definicji węzłów na poziomie „n”. Jeśli twoja definicja na poziomie „n” jest błędna, wszystkie kolejne poziomy i węzły obecne na tych poziomach również byłyby błędne.

Dowiedz się: regresja liniowa w uczeniu maszynowym

Drzewo decyzyjne w R (przykład)

Potrzebujesz rpart, aby zbudować drzewo decyzyjne w R. Używamy rpart do klasyfikacji. W R budujesz drzewo decyzyjne na podstawie rekurencyjnego algorytmu partycjonowania, który generuje decyzję, a wraz z nią drzewa regresji. Ma dwa kroki:

Najpierw zidentyfikuje zmienną, która dzieli dane na dwie oddzielne grupy w najlepszy możliwy sposób.
Po drugie, będzie powtarzał proces z poprzedniego kroku w każdej podgrupie, aż te grupy osiągną określony rozmiar lub jeśli nie będzie już w stanie wprowadzać ulepszeń w tych podgrupach.

Jako przykład mamy następujące dane:

W powyższych danych masz czas i przyspieszenie roweru. Musimy przewidzieć jego przyspieszenie w zależności od czasu. Zrobimy to, wykonując następujące czynności:

1biblioteka(rpart)

Następnie załaduj dane:

1dane (rower)

Teraz utworzymy wykres punktowy:

1 działka (accel~times,data=bike)

Kiedyś to zrobiliśmy i stworzymy drzewo:

1mct <- rpart(accel ~ razy, data=rower)

Naszym ostatnim krokiem jest sporządzenie wykresu:

1Działka (mct)

Przeczytaj: Jak stworzyć idealne drzewo decyzyjne?

Końcowe przemyślenia

Mamy teraz doskonale działający model drzewa decyzyjnego w R. Więcej podobnych samouczków znajdziesz na naszym blogu.

Jeśli chcesz dowiedzieć się więcej o drzewach decyzyjnych, uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznych szkoleń, ponad 30 studiów przypadków i zadań , status absolwentów IIIT-B, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Jaka jest najważniejsza cecha algorytmu drzewa decyzyjnego?

Algorytmy drzew decyzyjnych są cennym narzędziem do analizy decyzyjności i ryzyka i często są wyrażane w postaci wykresu lub listy reguł. Prostota użycia algorytmów drzew decyzyjnych jest jedną z jego najważniejszych cech. Są łatwe do zrozumienia i istotne, ponieważ są wizualne. Nawet jeśli użytkownicy nie są zaznajomieni z budową algorytmów drzew decyzyjnych, mogą z powodzeniem ją zastosować. Algorytmy drzew decyzyjnych są najczęściej wykorzystywane do przewidywania przyszłych zdarzeń na podstawie wcześniejszych doświadczeń i wspomagania racjonalnego podejmowania decyzji. Inną ważną dziedziną algorytmów drzew decyzyjnych jest eksploracja danych, w której drzewa decyzyjne są wykorzystywane jako narzędzie klasyfikacji i modelowania, co omówiono poniżej.

Jak ważny jest algorytm drzewa decyzyjnego?

Algorytm drzewa decyzyjnego ma tę ważną zaletę, że wymusza analizę wszystkich możliwych wyników decyzji i śledzenie każdej ścieżki prowadzącej do wniosku. Generuje szczegółowe badanie implikacji wzdłuż każdej gałęzi i wskazuje węzły decyzyjne, które wymagają dokładniejszego zbadania. Ponadto każdej trudności, ścieżce decyzji i wynikowi przypisuje się unikalną wartość algorytmów drzewa decyzyjnego. Metoda ta podkreśla ważne ścieżki decyzyjne, zmniejsza niepewność, eliminuje niejasności i wyjaśnia konsekwencje finansowe alternatywnych sposobów działania. Gdy informacje faktyczne są niedostępne, użytkownicy mogą użyć algorytmów drzew decyzyjnych, aby umieścić opcje w perspektywie względem siebie w celu prostego porównania, wykorzystując prawdopodobieństwa okoliczności.

Na jakiej technice opiera się algorytm drzewa decyzyjnego?

Algorytm drzewa decyzyjnego opiera się na technice drzewa decyzyjnego, które można wykorzystać do zagadnień klasyfikacji i regresji. Nazwa sugeruje użycie struktury drzewa przypominającej schemat blokowy, aby wyświetlić prognozy wynikające z kolejnych podziałów opartych na funkcjach. Rozpoczyna się od węzła głównego i kończy decyzją liścia. Drzewo decyzyjne składa się z trzech rodzajów węzłów, tj. kwadratów, które zwykle reprezentują węzły decyzyjne, węzłów szansy, które są zwykle przedstawiane w okręgach, oraz trójkątów symbolizujących węzły końcowe.