Wyjaśnienie drzewa decyzyjnego w uczeniu maszynowym [z przykładami]

Opublikowany: 2020-12-21

Wstęp

Uczenie drzew decyzyjnych jest główną techniką eksploracji danych i jest formą nadzorowanego uczenia maszynowego. Drzewo decyzyjne jest jak diagram, za pomocą którego ludzie przedstawiają prawdopodobieństwo statystyczne lub znajdują przebieg zdarzenia, działanie lub rezultat. Przykład drzewa decyzyjnego ułatwia zrozumienie pojęcia.

Gałęzie na diagramie drzewa decyzyjnego pokazują prawdopodobny wynik, możliwą decyzję lub reakcję. Gałąź na końcu drzewa decyzyjnego wyświetla prognozę lub wynik. Drzewa decyzyjne są zwykle używane do znalezienia rozwiązania problemu, który staje się skomplikowany do rozwiązania ręcznego. Wyjaśnijmy to szczegółowo za pomocą kilku przykładów drzew decyzyjnych.

Drzewo decyzyjne jest jednym z popularnych, a zarazem potężnych narzędzi, które służy do przewidywania i klasyfikacji danych lub zdarzenia. Jest jak schemat blokowy, ale ma strukturę drzewa. Wewnętrzne węzły drzew reprezentują test lub pytanie dotyczące atrybutu; każda gałąź jest możliwym wynikiem zadanego pytania, a węzeł końcowy, który jest również nazywany węzłem liścia, oznacza etykietę klasy.

W drzewie decyzyjnym mamy kilka zmiennych predykcyjnych. W zależności od tych zmiennych predykcyjnych spróbuj przewidzieć tak zwaną zmienną odpowiedzi.

Przeczytaj pokrewne: Klasyfikacja drzewa decyzyjnego: wszystko, co musisz wiedzieć

Drzewo decyzyjne w ML

Reprezentując kilka kroków w postaci sekwencji, drzewo decyzyjne staje się łatwym i skutecznym sposobem zrozumienia i wizualizacji możliwych opcji decyzji i potencjalnych wyników z zakresu. Drzewa decyzyjne są również pomocne w identyfikowaniu możliwych opcji i wyważaniu korzyści i zagrożeń w stosunku do każdego możliwego do osiągnięcia kierunku działania.

Drzewo decyzyjne jest wdrażane w wielu małych i dużych organizacjach jako rodzaj systemu wsparcia w podejmowaniu decyzji. Ponieważ przykład drzewa decyzyjnego jest modelem strukturalnym, czytelnicy mogą zrozumieć wykres i przeanalizować, w jaki sposób i dlaczego dana opcja może prowadzić do odpowiedniej decyzji. Przykład drzewa decyzyjnego pozwala również czytelnikowi przewidzieć i uzyskać wiele możliwych rozwiązań pojedynczego problemu, zrozumieć format i związek między różnymi zdarzeniami i danymi z decyzją.

Każdy wynik w drzewie ma przypisaną liczbę lub wagę nagrody i ryzyka. Jeśli kiedykolwiek użyjesz drzewa decyzyjnego, uzyskasz każdy wynik końcowy z możliwymi wadami i korzyściami. Aby poprawnie zakończyć swoje drzewo, możesz rozciągnąć je tak krótko lub tak długo, jak to konieczne, w zależności od zdarzenia i ilości danych. Weźmy prosty przykład drzewa decyzyjnego, aby lepiej to zrozumieć.

Rozważ podane dane, które składają się z danych osób, takich jak: czy piją, czy palą, ich waga i wiek, w którym te osoby zmarły.

Imię	Pijący	Palący	Waga	Wiek (zmarł)
Sam	TAk	TAk	120	44
Mary	Nie	Nie	70	96
Jonasz	TAk	Nie	72	88
Taylor	TAk	TAk	55	52
Joe	Nie	TAk	94	56
Złupić	Nie	Nie	62	93

Spróbujmy przewidzieć, czy ludzie umrą w młodszym czy starszym wieku. Cechy takie jak pijący, palacz i waga będą działać jako wartość prognostyczna. Korzystając z nich, rozważymy wiek jako zmienną odpowiedzi.

Nazwijmy, że ludzie, którzy zmarli przed 70 rokiem życia, umierali „młodo”, a ludzie, którzy zmarli po 70 roku życia, umierali „staro”. Przewidujmy teraz zmienną odpowiedzi na podstawie zmiennej predykcyjnej. Poniżej podano drzewo decyzyjne wykonane po zapoznaniu się z danymi.

Powyższe drzewo decyzyjne wyjaśnia, że jeśli dana osoba jest palaczem, umiera młodo. Jeśli dana osoba nie jest palaczem, kolejnym branym pod uwagę czynnikiem jest to, czy osoba pije, czy nie. Jeśli ktoś nie pali i nie pije, umiera w podeszłym wieku.

Jeśli dana osoba nie jest palaczem i pije, bierze się pod uwagę wagę osoby. Jeśli osoba nie pali, pije i waży poniżej 90 kg, umiera w podeszłym wieku. I wreszcie, jeśli osoba nie pali, pije i waży powyżej 90 kg, umiera młodo.

Z podanych danych weźmy przykład Jonasa, aby sprawdzić, czy drzewo decyzyjne jest prawidłowo sklasyfikowane i czy poprawnie przewiduje zmienną odpowiedzi. Jonas nie pali, pije i waży poniżej 90 kg. Zgodnie z drzewem decyzyjnym umrze w podeszłym wieku (wiek, w którym umiera >70 lat). Ponadto, zgodnie z danymi, zmarł, gdy miał 88 lat, co oznacza, że przykład drzewa decyzyjnego został prawidłowo sklasyfikowany i działał doskonale.

Ale czy kiedykolwiek zastanawiałeś się nad podstawową ideą działania drzewa decyzyjnego? W drzewie decyzyjnym zbiór instancji jest podzielony na podzbiory w taki sposób, że zmienność w każdym podzbiorze zmniejsza się. Oznacza to, że chcemy zredukować entropię, a zatem zmienność jest redukowana, a zdarzenie lub instancja próbuje się oczyścić.

Rozważmy podobny przykład drzewa decyzyjnego . Po pierwsze, zastanawiamy się, czy dana osoba jest palaczem, czy nie.

Tutaj nie mamy pewności co do niepalących. Więc podzieliliśmy to na pijących i niepijących.

Na poniższym diagramie widać, że przeszliśmy od wysokiej entropii o dużej zmienności do zredukowania jej do mniejszej klasy, co do której jesteśmy bardziej pewni. W ten sposób można przyrostowo budować dowolne przykładowe drzewo decyzyjne .

Skonstruujmy drzewo decyzyjne za pomocą algorytmu ID3. W drzewie decyzyjnym ważniejsze jest silne zrozumienie Entropii. Entropia to nic innego jak stopień niepewności. Podaje ją:

(Czasami jest to również oznaczane przez „E”)

Jeśli zastosujemy go do powyższego przykładu, będzie wyglądał następująco:

Rozważ przypadek, w którym nie mamy ludzi podzielonych na żadną kategorię. Jest to najgorszy scenariusz (wysoka entropia), gdy oba typy ludzi mają taką samą ilość. Stosunek tutaj wynosi 3:3.

Podobnie dla osób, które nie piją, mają stosunek 1:1, a entropia wynosiłaby 1. Dlatego wymaga dalszego podziału ze względu na niepewność. Dla osób niepijących stosunek wynosi 2:0. Stąd entropia wynosi 0.

Teraz obliczyliśmy entropię dla różnych przypadków, a zatem możemy obliczyć średnią ważoną dla tego samego.

Dla pierwszej gałęzi E= 6 6 1=1

Dla klasy Palacz E= 2 6 0+ 4 6 0,811=0,54

Dla klasy palaczy i pijących E= 2 6 0+ 2 6 1+ 2 6 0=0,33

Poniższy schemat pomoże Ci w szybkim zrozumieniu powyższych obliczeń.

Wreszcie informacja zyskuje:

Klasa	Entropia	Zysk informacji (E2-E1)
Ludzie	1	0,46
Palący	0,54	0,21
Palacz+Pijący	0,33	–

Przeczytaj także: Pytania i odpowiedzi podczas rozmowy kwalifikacyjnej na temat drzewa decyzyjnego

Wniosek

Z powodzeniem zbadaliśmy dogłębnie drzewa decyzyjne, od teorii po praktyczny przykład drzewa decyzyjnego . Skonstruowaliśmy również drzewo decyzyjne z wykorzystaniem algorytmu ID3. Jeśli uznałeś to za interesujące, możesz zechcieć szczegółowo zbadać naukę o danych.

Jeśli chcesz dowiedzieć się więcej o drzewach decyzyjnych, uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznych szkoleń, ponad 30 studiów przypadków i zadań , status absolwentów IIIT-B, ponad 5 praktycznych praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Czym są drzewa decyzyjne?

Drzewa decyzyjne służą do wizualnego organizowania i organizowania informacji związanych z podejmowaniem decyzji. Drzewa są narysowane tak, że korzeń znajduje się na górze, a liście na dole. Drzewa decyzyjne są odczytywane od dołu do góry, przesuwając się od lewej do prawej. Każdy poziom drzewa jest podstawą do dalszych testów, a decyzje na każdym poziomie zawężają zakres, aż do uzyskania odpowiedzi na pytanie. Drzewo decyzyjne dzieli problem lub decyzję na wiele poddecyzji i podąża logiczną ścieżką do korzenia, co jest głównym celem. Drzewa decyzyjne służą do analizy otoczenia biznesowego, ustalania priorytetów i zapewniania wglądu w podejmowanie decyzji, w jakim kierunku należy podążać.

Jakie są problemy z uczeniem się drzewa decyzyjnego w uczeniu maszynowym?

Drzewa decyzyjne mogą służyć jako podstawa do testowania nowych strategii lub wyjaśniania strategii innym. Drzewo decyzyjne wyjaśnia, co się stanie przy danym zestawie założeń. Można je również wykorzystać do oceny skuteczności strategii, która była używana w przeszłości. Wiadomo, że drzewa decyzyjne są zbyt podatne na błędy ze względu na wszystkie ich gałęzie. Drzewa decyzyjne nie zawsze są dokładne, ponieważ czasami nie uwzględniają wszystkich możliwych zmiennych, a osoba analizująca drzewo decyzyjne może nie mieć doświadczenia we wszystkich aspektach konkretnej sytuacji.

Jakie dane są najlepsze dla drzew decyzyjnych?

Drzewa decyzyjne pomagają znaleźć wzorce w danych przy użyciu schematu blokowego podobnego do struktury. Najlepszym rodzajem danych byłyby dane jakościowe, kategoryczne i liczbowe. Chociaż drzewa decyzyjne działają ze wszystkimi typami danych, najlepiej sprawdzają się w przypadku danych liczbowych. Muszą być w stanie mieć wartości będące liczbami lub powinien istnieć sposób przetłumaczenia ich na liczby. Drzewa decyzyjne są silnie uzależnione od rodzaju danych, a także ich ilości. Jeśli liczba punktów danych jest większa niż 100, dobrym modelem będą drzewa decyzyjne.