Pădurea aleatorie vs Arborele de decizie: Diferența dintre Pădurea aleatoare și Arborele de decizie

Publicat: 2020-12-30

Progresele recente au favorizat creșterea mai multor algoritmi. Acești algoritmi noi și strălucitori au dat foc datelor. Ele ajută la manipularea datelor și la luarea deciziilor cu acestea în mod eficient. Întrucât lumea se confruntă cu o furie pe internet. Aproape totul este pe internet. Pentru a gestiona astfel de date, avem nevoie de algoritmi riguroși pentru a lua decizii și interpretări. Acum, în prezența unei liste largi de algoritmi, este o sarcină grea să alegeți cel mai potrivit.

Algoritmii de luare a deciziilor sunt folosiți pe scară largă de majoritatea organizațiilor. Ei trebuie să ia decizii banale și mari la fiecare oră. De la analiza ce material să alegeți pentru a obține suprafețe mari brute, o decizie se întâmplă în backend. Recentele progrese python și ML au împins bara pentru gestionarea datelor. Astfel, datele sunt prezente în blocuri uriașe. Pragul depinde de organizație. Există 2 algoritmi majori de decizie folosiți pe scară largă. Arborele de decizie și pădurea aleatorie - Sună familiar, nu?

Copaci și păduri!

Să explorăm asta cu un exemplu ușor.

Să presupunem că trebuie să cumpărați un pachet de Rs. 10 biscuiti dulci. Acum, trebuie să decideți una dintre mai multe mărci de biscuiți.

Alegeți un algoritm de arbore de decizie. Acum, va verifica Rs. Pachet de 10, care este dulce. Va alege probabil cei mai vânduți biscuiți. Veți decide să mergeți pentru Rs. 10 biscuiti de ciocolata. Esti fericit!

Dar prietenul tău a folosit algoritmul de pădure aleatorie. Acum, a luat mai multe decizii. Mai departe, alegerea deciziei majoritare. El alege dintre diverse arome de căpșuni, vanilie, afine și portocale. El verifică că un anumit Rs. 10 pachete au servit cu 3 unități mai mult decât cel original. S-a servit in ciocolata vanilie. A cumpărat biscuitul ăla cu vanilie. El este cel mai fericit, în timp ce tu rămâi să regreti decizia ta.

Alăturați-vă cursului online de învățare automată de la cele mai bune universități din lume – masterat, programe executive postuniversitare și program de certificat avansat în ML și AI pentru a vă accelera cariera.

Cuprins

Care este diferența dintre Arborele Deciziei și Pădurea Aleatorie?

1. Arborele de decizie

Sursă

Decision Tree este un algoritm de învățare supravegheată utilizat în învățarea automată. A funcționat atât în ​​algoritmi de clasificare, cât și de regresie. După cum sugerează și numele, este ca un copac cu noduri. Ramurile depind de numărul de criterii. Împarte datele în ramuri ca acestea până când atinge o unitate de prag. Un arbore de decizie are noduri rădăcină, noduri copii și noduri frunză.

Recursiunea este folosită pentru parcurgerea nodurilor. Nu aveți nevoie de alt algoritm. Gestionează datele cu acuratețe și funcționează cel mai bine pentru un model liniar. Se ocupă cu ușurință de date mari și durează mai puțin.

Cum functioneazã?

1. Împărțirea

Datele, atunci când sunt furnizate arborelui de decizie, sunt supuse împărțirii în diferite categorii sub ramuri.

Trebuie citit: Clasificator Bayes naiv: argumente pro și contra, aplicații și tipuri explicate

2. Tunderea

Tăierea înseamnă mărunțirea acelor ramuri în plus. Funcționează ca o clasificare pentru a subvenționa datele într-un mod mai bun. Ca, la fel cum spunem tăierea pieselor în exces, funcționează la fel. Se ajunge la nodul frunzei și se termină tăierea. Este o parte foarte importantă a arborilor de decizie.

3. Selectarea arborilor

Acum, trebuie să alegeți cel mai bun arbore care poate funcționa fără probleme cu datele dvs.

Iată care sunt factorii care trebuie luați în considerare:

4. Entropie

Pentru a verifica omogenitatea arborilor, trebuie dedusă entropia. Dacă entropia este zero, este omogenă; altfel nu.

5. Câștig de cunoștințe

Odată ce entropia este scăzută, informația este câștigată. Aceste informații ajută la împărțirea ramurilor în continuare.

  • Trebuie să calculați entropia.
  • Împărțiți datele pe baza diferitelor criterii
  • Alegeți cele mai bune informații.

Adâncimea copacului este un aspect important. Profunzimea ne informează asupra numărului de decizii pe care trebuie să le luăm înainte de a ajunge la o concluzie. Arborii de adâncime mică au rezultate mai bune cu algoritmii arborelui de decizie.

Avantajele și dezavantajele arborelui decizional

Avantaje

  1. Uşor
  2. Proces transparent
  3. Gestionați atât date numerice, cât și date categoriale
  4. Cu cât datele sunt mai mari, cu atât rezultatul este mai bun
  5. Viteză

Dezavantaje

  1. Poate supraadaptare
  2. Procesul de tăiere mare
  3. Optimizare negarantată
  4. Calcule complexe
  5. Deviație mare

Checkout: Modelele de învățare automată explicate

2. Pădurea aleatorie

Sursă

Este folosit și pentru învățarea supravegheată, dar este foarte puternic. Este foarte utilizat pe scară largă. Diferența de bază este că nu se bazează pe o decizie singulară. Adună decizii randomizate pe baza mai multor decizii și ia decizia finală pe baza majorității.

Nu caută cea mai bună predicție. În schimb, face mai multe predicții aleatorii. Astfel, se atașează mai multă diversitate, iar predicția devine mult mai lină.

Puteți deduce că Pădurea aleatorie este o colecție de arbori de decizie multipli!

Bagarea în sac este procesul de stabilire a pădurilor la întâmplare, în timp ce deciziile funcționează în paralel.

1. Ambalare

  • Luați un set de date de antrenament
  • Faceți un arbore de decizie
  • Repetați procesul pentru o perioadă determinată
  • Acum luați votul major. Cea care câștigă este decizia ta pe care o iei.

2. Bootstrapping

Bootstrapping înseamnă alegerea aleatorie a mostrelor din datele de antrenament. Aceasta este o procedură aleatorie.

Pas cu pas

  • Alegeți aleatoriu condițiile
  • Calculați nodul rădăcină
  • Despică
  • Repeta
  • Primești o pădure

Citește: Bayes naiv explicat

Avantajele și dezavantajele pădurii aleatorii

Avantaje
  1. Puternic și extrem de precis
  2. Nu este nevoie de normalizare
  3. Poate gestiona mai multe funcții simultan
  4. Alergați copacii în moduri paralele
Dezavantaje
  1. Uneori sunt părtinitoare la anumite caracteristici
  2. Încet
  3. Nu poate fi utilizat pentru metode liniare
  4. Mai rău pentru datele cu dimensiuni mari

Concluzie

Arborele de decizie sunt foarte ușori în comparație cu pădurea aleatorie. Un arbore de decizie combină unele decizii, în timp ce o pădure aleatoare combină mai mulți arbori de decizie. Prin urmare, este un proces lung, dar lent.

Întrucât, un arbore de decizie este rapid și funcționează cu ușurință pe seturi mari de date, în special pe cel liniar. Modelul forestier aleatoriu necesită o pregătire riguroasă. Când încercați să puneți un proiect, este posibil să aveți nevoie de mai multe modele. Astfel, un număr mare de păduri aleatorii, mai mult timp.

Depinde de cerințele dvs. Dacă aveți mai puțin timp pentru a lucra la un model, sunteți obligat să alegeți un arbore de decizie. Cu toate acestea, stabilitatea și previziunile de încredere sunt în coșul pădurilor aleatorii.

Dacă aveți pasiune și doriți să aflați mai multe despre inteligența artificială, puteți urma Diploma PG de la IIIT-B și upGrad în Învățare automată și Învățare profundă, care oferă peste 400 de ore de învățare, sesiuni practice, asistență la locul de muncă și multe altele.

Cum este pădurea aleatoare diferită de un arbore de decizie normal?

În învățarea automată, un arbore de decizie este o tehnică de învățare supravegheată. Este capabil să lucreze atât cu tehnici de clasificare, cât și de regresie. Seamănă cu un arbore cu noduri, după cum sugerează și numele. Cantitatea de criterii determină ramurile. Împarte datele în aceste ramuri până când atinge o unitate de prag. Există noduri rădăcină, noduri copil și noduri frunză într-un arbore de decizie. Pădurea aleatoare este folosită și pentru învățarea supravegheată, deși are multă putere. Este destul de popular. Principala distincție este că nu se bazează pe o singură decizie. Adună decizii randomizate pe baza mai multor decizii și apoi creează o decizie finală în funcție de majoritate.

Care sunt principalele avantaje ale utilizării unei păduri aleatorii față de un singur arbore de decizie?

Într-o lume ideală, am dori să reducem atât erorile legate de părtinire, cât și erorile legate de varianță. Această problemă este bine abordată de pădurile aleatorii. O pădure aleatorie nu este altceva decât o serie de arbori de decizie cu constatările lor combinate într-un singur rezultat final. Ele sunt atât de puternice datorită capacității lor de a reduce supraajustarea fără a crește masiv eroarea din cauza părtinirii. Pădurile aleatorii, pe de altă parte, sunt un instrument puternic de modelare, care este mult mai rezistent decât un singur arbore de decizie. Acestea combină numeroși arbori de decizie pentru a reduce supraadaptarea și inexactitatea legată de părtinire și, prin urmare, produc rezultate utilizabile.

Ce este o limitare a arborilor de decizie?

Unul dintre dezavantajele arborilor de decizie este că sunt foarte instabili în comparație cu alți predictori de alegere. O ușoară modificare a datelor ar putea cauza o schimbare semnificativă a structurii arborelui de decizie, rezultând un rezultat care diferă de ceea ce s-ar aștepta consumatorii la un eveniment tipic. Mai mult, atunci când scopul principal este de a prognoza rezultatul unei variabile continue, arborii de decizie sunt mai puțin folositori în a face predicții.