Losowy las a drzewo decyzyjne: różnica między losowym lasem a drzewem decyzyjnym

Opublikowany: 2020-12-30

Ostatnie postępy umożliwiły rozwój wielu algorytmów. Te nowe i płonące algorytmy podpaliły dane. Pomagają w skutecznym przetwarzaniu danych i podejmowaniu na ich podstawie decyzji. Ponieważ świat ma do czynienia z internetowym szaleństwem. Prawie wszystko jest w Internecie. Aby obsłużyć takie dane, potrzebujemy rygorystycznych algorytmów do podejmowania decyzji i interpretacji. Teraz, w obliczu szerokiej listy algorytmów, wybór najlepiej dopasowanego jest nie lada zadaniem.

Algorytmy podejmowania decyzji są szeroko stosowane przez większość organizacji. Co drugą godzinę muszą podejmować błahe i ważne decyzje. Od analizy, który materiał wybrać, aby uzyskać duże powierzchnie brutto, decyzja odbywa się w zapleczu. Ostatnie postępy w Pythonie i ML przesunęły poprzeczkę w zakresie obsługi danych. W ten sposób dane są obecne w ogromnych ilościach. Próg zależy od organizacji. Powszechnie stosowane są 2 główne algorytmy decyzyjne. Drzewo decyzyjne i losowy las — brzmi znajomo, prawda?

Drzewa i lasy!

Zbadajmy to na prostym przykładzie.

Załóżmy, że musisz kupić paczkę Rs. 10 słodkich herbatników. Teraz musisz wybrać jedną z kilku marek ciastek.

Wybierasz algorytm drzewa decyzyjnego. Teraz sprawdzi Rs. 10 paczek, które są słodkie. Wybierze prawdopodobnie najchętniej kupowane ciastka. Zdecydujesz się na Rs. 10 ciastek czekoladowych. Jesteś szczęśliwy!

Ale twój przyjaciel użył algorytmu losowego lasu. Teraz podjął kilka decyzji. Dalej, wybierając decyzję większości. Wybiera spośród różnych smaków truskawek, wanilii, jagód i pomarańczy. Sprawdza, czy konkretny Rs. 10 paczek serwowało o 3 jednostki więcej niż oryginalne. Podano go w czekoladzie waniliowej. Kupił to waniliowe ciastko czekoladowe. On jest najszczęśliwszy, podczas gdy ty musisz żałować swojej decyzji.

Dołącz do internetowego kursu uczenia maszynowego z najlepszych światowych uniwersytetów — studiów magisterskich, programów podyplomowych dla kadry kierowniczej i zaawansowanego programu certyfikacji w zakresie uczenia się maszynowego i sztucznej inteligencji, aby przyspieszyć swoją karierę.

Spis treści

Jaka jest różnica między drzewem decyzyjnym a losowym lasem?

1. Drzewo decyzyjne

Źródło

Drzewo decyzyjne to nadzorowany algorytm uczenia stosowany w uczeniu maszynowym. Działał zarówno w algorytmach klasyfikacji, jak i regresji. Jak sama nazwa wskazuje, jest jak drzewo z węzłami. Oddziały zależą od liczby kryteriów. Dzieli dane na takie gałęzie, aż osiągnie jednostkę progową. Drzewo decyzyjne zawiera węzły główne, węzły podrzędne i węzły liści.

Rekurencja służy do przechodzenia przez węzły. Nie potrzebujesz żadnego innego algorytmu. Przetwarza dane dokładnie i działa najlepiej w przypadku wzorca liniowego. Z łatwością obsługuje duże dane i zajmuje mniej czasu.

Jak to działa?

1. Dzielenie

Dane przekazane do drzewa decyzyjnego podlegają rozbiciu na różne kategorie w ramach gałęzi.

Trzeba przeczytać: Naiwny klasyfikator Bayesa: zalety i wady, zastosowania i typy wyjaśnione

2. Przycinanie

Przycinanie to ponadto rozdrabnianie tych gałęzi. Działa jako klasyfikacja w celu lepszego dotowania danych. Podobnie jak przycinanie nadmiaru części, działa tak samo. Osiągnięto węzeł liścia i kończy się przycinanie. To bardzo ważna część drzew decyzyjnych.

3. Wybór drzew

Teraz musisz wybrać najlepsze drzewo, które może bezproblemowo pracować z Twoimi danymi.

Oto czynniki, które należy wziąć pod uwagę:

4. Entropia

Aby sprawdzić jednorodność drzew, należy wywnioskować entropię. Jeśli entropia wynosi zero, jest jednorodna; inaczej nie.

5. Zdobywanie wiedzy

Gdy entropia jest zmniejszona, informacja jest pozyskiwana. Ta informacja pomaga w dalszym dzieleniu gałęzi.

Musisz obliczyć entropię.
Podziel dane na podstawie różnych kryteriów
Wybierz najlepsze informacje.

Ważnym aspektem jest głębokość drzewa. Głębokość informuje nas o liczbie decyzji, które należy podjąć, zanim dojdziemy do wniosku. Drzewa o małej głębokości działają lepiej dzięki algorytmom drzew decyzyjnych.

Zalety i wady drzewa decyzyjnego

Zalety

Łatwo
Przejrzysty proces
Obsługuj zarówno dane liczbowe, jak i kategoryczne
Im większe dane, tym lepszy wynik
Prędkość

Niedogodności

Może przesadzić
Duży proces przycinania
Optymalizacja niegwarantowana
Złożone obliczenia
Wysokie ugięcie

Zamówienie: Wyjaśnienie modeli uczenia maszynowego

2. Losowy las

Źródło

Jest również używany do nadzorowanego uczenia się, ale ma bardzo duże możliwości. Jest bardzo szeroko stosowany. Podstawowa różnica polega na tym, że nie zależy to od pojedynczej decyzji. Gromadzi losowe decyzje na podstawie kilku decyzji i podejmuje ostateczną decyzję na podstawie większości.

Nie szuka najlepszej prognozy. Zamiast tego tworzy wiele losowych prognoz. W ten sposób dołączona jest większa różnorodność, a przewidywanie staje się znacznie płynniejsze.

Możesz wywnioskować, że losowy las jest zbiorem wielu drzew decyzyjnych!

Bagging to proces ustanawiania losowych lasów, podczas gdy decyzje działają równolegle.

1. Workowanie

Weź zestaw danych treningowych
Zrób drzewo decyzyjne
Powtarzaj proces przez określony czas
Teraz weźcie główne głosowanie. Wygrywa Twoja decyzja.

2. Ładowanie początkowe

Bootstrapping to losowy wybór próbek z danych treningowych. To jest losowa procedura.

Krok po kroku

Losowo wybierz warunki

Oblicz węzeł główny

Rozdzielać

Powtarzać

Dostajesz las

Przeczytaj : Wyjaśnienie naiwnego Bayesa

Zalety i wady losowego lasu

Zalety

Potężny i bardzo dokładny
Nie ma potrzeby normalizacji
Może obsługiwać kilka funkcji jednocześnie
Prowadź drzewa równolegle

Niedogodności

Czasami mają tendencję do pewnych cech
Powolny
Nie można stosować do metod liniowych
Gorzej w przypadku danych wielowymiarowych

Wniosek

Drzewa decyzyjne są bardzo łatwe w porównaniu do lasu losowego. Drzewo decyzyjne łączy niektóre decyzje, podczas gdy losowy las łączy kilka drzew decyzyjnych. Jest to więc proces długi, ale powolny.

Natomiast drzewo decyzyjne jest szybkie i łatwo operuje na dużych zbiorach danych, zwłaszcza liniowych. Model lasu losowego wymaga rygorystycznego szkolenia. Kiedy próbujesz złożyć projekt, możesz potrzebować więcej niż jednego modelu. Stąd duża ilość lasów losowych, tym więcej czasu.

To zależy od Twoich wymagań. Jeśli masz mniej czasu na pracę nad modelem, z pewnością wybierzesz drzewo decyzyjne. Jednak stabilność i wiarygodne prognozy są w koszyku losowych lasów.

Jeśli masz pasję i chcesz dowiedzieć się więcej o sztucznej inteligencji, możesz podjąć studia IIIT-B i upGrad's PG Diploma in Machine Learning and Deep Learning , które oferuje ponad 400 godzin nauki, sesje praktyczne, pomoc w pracy i wiele więcej.

Czym różni się losowy las od normalnego drzewa decyzyjnego?

W uczeniu maszynowym drzewo decyzyjne jest techniką uczenia nadzorowanego. Jest zdolny do pracy zarówno z technikami klasyfikacji, jak i regresji. Jak sama nazwa wskazuje, przypomina drzewo z węzłami. Ilość kryteriów określa gałęzie. Dzieli dane na te gałęzie, aż osiągną jednostkę progową. W drzewie decyzyjnym znajdują się węzły główne, węzły podrzędne i węzły liści. Losowy las jest również używany do nadzorowanego uczenia się, chociaż ma dużą moc. Jest dość popularny. Główne rozróżnienie polega na tym, że nie opiera się na jednej decyzji. Gromadzi losowe decyzje na podstawie wielu decyzji, a następnie tworzy ostateczną decyzję w zależności od większości.

Jakie są główne zalety korzystania z losowego lasu w porównaniu z pojedynczym drzewem decyzyjnym?

W idealnym świecie chcielibyśmy zredukować zarówno błędy związane z uprzedzeniami, jak i wariancją. Ten problem jest dobrze rozwiązywany przez losowe lasy. Losowy las to nic innego jak seria drzew decyzyjnych, których wyniki zostały połączone w jeden wynik końcowy. Są tak potężne ze względu na ich zdolność do zmniejszania nadmiernego dopasowania bez masowego zwiększania błędu spowodowanego stronniczością. Z drugiej strony lasy losowe są potężnym narzędziem do modelowania, które jest znacznie bardziej odporne niż pojedyncze drzewo decyzyjne. Łączą one liczne drzewa decyzyjne, aby zmniejszyć nadmierne dopasowanie i niedokładności związane z uprzedzeniami, a tym samym dają użyteczne wyniki.

Jakie jest ograniczenie drzew decyzyjnych?

Jedną z wad drzew decyzyjnych jest to, że są one bardzo niestabilne w porównaniu z innymi predyktorami wyboru. Niewielka zmiana danych może spowodować istotną zmianę w strukturze drzewa decyzyjnego, skutkującą wynikiem odbiegającym od tego, jakiego konsumenci oczekiwaliby w typowym zdarzeniu. Co więcej, gdy głównym celem jest prognozowanie wyniku zmiennej ciągłej, drzewa decyzyjne są mniej przydatne w przewidywaniu.