Klasyfikacja drzewa decyzyjnego: wszystko, co musisz wiedzieć

Opublikowany: 2020-05-29

Spis treści

Wstęp

Wiele analogii można by przenieść z natury do naszego prawdziwego życia; drzewa są jednymi z najbardziej wpływowych z nich. Drzewa wywarły wpływ na znaczną dziedzinę uczenia maszynowego. Obejmują one zarówno podstawową klasyfikację, jak i regresję. Analizując jakąkolwiek decyzję, można zastosować klasyfikator drzewa decyzyjnego do reprezentowania procesu podejmowania decyzji.

Tak więc zasadniczo drzewo decyzyjne jest częścią nadzorowanego uczenia maszynowego, w którym przetwarzanie danych odbywa się poprzez ciągłe dzielenie danych, przy jednoczesnym zachowaniu określonego parametru.

Z czego zbudowane są drzewa decyzyjne?

Odpowiedź na pytanie jest prosta. Drzewa decyzyjne składają się z trzech podstawowych elementów, a analogię do każdej z nich można odnieść do prawdziwego drzewa. Wszystkie trzy z nich są wymienione poniżej:

Węzły: jest to miejsce, w którym odbywa się testowanie wartości. W węźle przekazywana jest wartość określonego atrybutu, która jest sprawdzana i testowana względem wartości w celu podjęcia decyzji.
Krawędzie/odgałęzienia: Ta część odpowiada wynikowi dowolnego wyniku testu. Krawędzie/gałęzie są również odpowiedzialne za łączenie dwóch różnych węzłów lub liści.
Węzły liściaste: są to węzły, które zwykle znajdują się na terminalach. Węzły liści są odpowiedzialne za przewidywanie wyniku.

Klasyfikacja drzewa decyzyjnego

Drzewa decyzyjne można ogólnie podzielić na dwie kategorie, a mianowicie drzewa klasyfikacyjne i drzewa regresji.

1. Drzewa klasyfikacyjne

Drzewa klasyfikacyjne to te rodzaje drzew decyzyjnych, które opierają się na odpowiedzi na pytania „Tak” lub „Nie” i wykorzystaniu tych informacji do podjęcia decyzji. Tak więc drzewo, które określa, czy dana osoba jest sprawna, czy nie, zadając szereg powiązanych pytań i wykorzystując odpowiedzi, aby znaleźć realne rozwiązanie, jest rodzajem drzewa klasyfikacyjnego.

Te typy drzew są zwykle konstruowane przy użyciu procesu zwanego binarnym partycjonowaniem rekurencyjnym. Metoda binarnego partycjonowania rekurencyjnego polega na podzieleniu danych na oddzielne moduły lub partycje, a następnie partycje te są dalej łączone w każdą gałąź klasyfikatora drzewa decyzyjnego .

2. Drzewa regresji

Obecnie drzewo decyzyjne typu regresji różni się od typu klasyfikacji drzewa decyzyjnego w jednym aspekcie. Dane, które zostały wprowadzone do dwóch drzew, są bardzo różne. Drzewa klasyfikacyjne obsługują dane, które są dyskretne, podczas gdy drzewa decyzyjne regresji obsługują typ danych ciągły. Dobrym przykładem drzew regresji może być cena domu lub czas, przez jaki pacjent zazwyczaj przebywa w szpitalu.

Dowiedz się więcej: Regresja liniowa w uczeniu maszynowym

Jak powstają drzewa decyzyjne?

Drzewa decyzyjne tworzone są poprzez pobranie zestawu danych, na których model ma być szkolony (drzewa decyzyjne są częścią nadzorowanego uczenia maszynowego). Ten uczący zbiór danych ma być stale dzielony na mniejsze podzbiory danych. Uzupełnieniem tego procesu jest tworzenie drzewa asocjacyjnego, które jest stopniowo tworzone obok siebie w procesie podziału danych. Po zakończeniu uczenia się maszyny następuje zakończenie tworzenia drzewa decyzyjnego na podstawie dostarczonego zestawu danych szkoleniowych, a następnie drzewo to jest zwracane użytkownikowi.

Główną ideą stojącą za wykorzystaniem drzewa decyzyjnego jest rozdzielenie danych na dwa główne regiony, region o gęstej populacji (klaster) lub obszar, który jest pustym (lub rzadkim) regionem.

Klasyfikacja drzewa decyzyjnego działa na podstawowej zasadzie podziału. Podbija, gdzie każdy nowy przykład, który został wprowadzony do drzewa, po przejściu serii testów, zostałby zorganizowany i otrzymał etykietę klasy. Algorytm dziel i rządź szczegółowo omówiono poniżej:

Dziel i rządź

Oczywiste jest, że klasyfikator drzewa decyzyjnego jest oparty i zbudowany przy użyciu heurystyki znanej jako partycjonowanie rekurencyjne, znanej również jako algorytm dziel i zwyciężaj. Dzieli dane na mniejsze zestawy i nadal to robi. Dopóki nie zostanie ustalone, że dane w każdym podzbiorze są jednorodne, lub jeśli użytkownik zdefiniował inne kryterium zatrzymania, zatrzymałoby to ten algorytm.

Jak działa klasyfikator drzewa decyzyjnego ?

Algorytm dziel i zwyciężaj jest używany do tworzenia klasyfikatora drzewa decyzyjnego . Korzystając z algorytmu, zawsze zaczynamy od korzenia drzewa, a także dzielimy zbiór danych, aby zmniejszyć niepewność ostatecznej decyzji.
To jest proces iteracyjny. Tak więc powtarzamy ten proces w każdym węźle. Ten proces jest powtarzany do czasu, gdy nie będziemy mieć węzłów o pożądanej czystości.
Ogólnie rzecz biorąc, aby uniknąć nadmiernego dopasowania, ustalamy granicę czystości, którą należy osiągnąć. Oznacza to, że ostateczny wynik może nie być w 100% czysty.

Podstawy algorytmu dziel i zwyciężaj:

Najpierw trzeba wybrać lub wybrać test dla węzła głównego. Następnie rozpoczyna się proces tworzenia oddziałów. Gałęzie są zaprojektowane z uwzględnieniem każdego możliwego wyniku badania, który został zdefiniowany.
Następnie następuje podział instancji danych na mniejsze podzbiory. Każda gałąź miałaby swój własny splot, który jest połączony z węzłem.
Ten proces należy następnie powtórzyć dla każdej gałęzi, używając tylko instancji, które przychodzą do danej gałęzi.
Ten cykliczny proces powinien zostać zatrzymany, jeśli wszystkie instancje należą do tej samej klasy.

Zalety stosowania klasyfikacji drzew decyzyjnych

Budowa nie wymaga ogromnych nakładów finansowych.
Jest to szybki proces klasyfikacji rekordów, które są nowe lub nieznane.
Można to bardzo łatwo zinterpretować, zwłaszcza jeśli drzewo jest małych rozmiarów.
Dokładność predykcji przy użyciu klasyfikatora drzewa decyzyjnego jest porównywalna z innymi metodami predykcji lub klasyfikacji.
Posiada również możliwość wykluczenia nieistotnych funkcji. Ten proces eliminowania nieistotnych funkcji odbywa się automatycznie.

Przeczytaj: Jak stworzyć idealne drzewo decyzyjne?

Wady korzystania z klasyfikatora drzewa decyzyjnego

Nadmierne dopasowanie zestawu danych jest w tym przypadku bardzo łatwe.
Granica decyzji ma ograniczenie. Może być tylko równoległy do osi, które zawierają atrybuty.
Modele oparte na drzewach decyzyjnych często mają podziały tendencyjne, które mają ogromną liczbę poziomów.
Wszelkie drobne zmiany wprowadzone w zestawie danych mogą mieć znaczący wpływ na logikę rządzącą decyzją.
Drzewa lagerowe są trudne do zrozumienia, ponieważ czasami mogą wydawać się bardzo sprzeczne z intuicją.

Przeczytaj także: Drzewa decyzyjne w uczeniu maszynowym

Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Wniosek

Drzewa decyzyjne przydają się, gdy mamy do czynienia z problemami, których nie da się rozwiązać za pomocą liniowych rozwiązań. Na podstawie obserwacji zauważono, że modele oparte na drzewie mogą z łatwością odwzorować nieliniowość danych wejściowych i skutecznie wyeliminować istniejący problem. Wyrafinowane metody, takie jak losowe generowanie lasu i wzmacnianie gradientu, opierają się na samym klasyfikatorze drzewa decyzyjnego .

Drzewa decyzyjne są potężnym narzędziem, które można wykorzystać w wielu dziedzinach życia codziennego, takich jak inżynieria biomedyczna, astronomia, sterowanie systemami, leki, fizyka itp. Dzięki temu klasyfikacja drzew decyzyjnych jest kluczowym i niezbędnym narzędziem uczenia maszynowego.

Czy drzewa decyzyjne mają skłonność do nadmiernego dopasowania?

Drzewa decyzyjne dzielą złożone dane na prostsze formy. Klasyfikacja Drzewo decyzyjne próbuje podzielić dane, dopóki nie będzie można ich dalej podzielić. Następnie tworzony jest przejrzysty wykres wszystkich możliwych treści, który pomaga w dalszej analizie. Podczas gdy ogromne drzewo z licznymi splotami daje nam prostą ścieżkę, może również generować problem podczas testowania danych. To nadmierne sploty prowadzą do overfittingu, w którym wiele podziałów powoduje ogromny wzrost drzewa. W takich przypadkach zdolność przewidywania drzewa decyzyjnego jest zagrożona, a zatem staje się nieprawidłowa. Przycinanie to technika stosowana do radzenia sobie z nadmiernym dopasowaniem, w której nadmiarowe podzbiory są usuwane.

Czy drzewa decyzyjne wymagają normalizacji?

Drzewa decyzyjne to najpowszechniejszy algorytm uczenia maszynowego używany do klasyfikacji i regresji danych. Ten nadzorowany mechanizm dzieli dane na podzbiór w różne grupy, aż dotrą do węzła liścia, gdzie nie można ich dalej podzielić. Ponieważ te dane zostaną podzielone na kategorie na podstawie dostarczonych atrybutów, zostaną podzielone równomiernie. Przekazuje, że zarówno dane, które przeszły normalizację, jak i dane, które nie przeszły tej samej liczby podziałów. Dlatego normalizacja nie jest warunkiem wstępnym dla modeli drzew opartych na decyzjach.

Jak splatać drzewa decyzyjne?

Drzewa decyzyjne to niezawodny mechanizm klasyfikacji danych i przewidywania rozwiązań. Splicing w drzewie decyzyjnym wymaga precyzji; jeden drobny błąd może naruszyć integralność Drzewa Decyzyjnego. Splicing w drzewie decyzyjnym odbywa się przy użyciu partycjonowania rekurencyjnego. Dzielenie danych rozpoczyna się od tworzenia podzbiorów danych poprzez przypisane do nich atrybuty. Dane są dzielone rekursywnie w sposób powtarzalny, aż połączone dane w każdym węźle zostaną uznane za przestarzałe w przewidywaniu rozwiązań. Podzbiór może być również podobny do wartości zmiennej docelowej. Splicing musi być metodyczny i powtarzalny, aby zapewnić dobrą dokładność.