Ghid pentru algoritmul arborelui decizional: aplicații, avantaje și dezavantaje și exemple

Publicat: 2020-12-10

Există diferite tipuri de algoritmi de învățare automată și fiecare dintre ei are aplicații unice. În acest articol, vom arunca o privire la unul dintre cei mai populari și utili algoritmi ML, algoritmul Decision Tree. Am discutat un exemplu de arbore de decizie în R pentru a vă ajuta să vă familiarizați cu utilizarea acestuia. Să începem.

Cuprins

Ce este un algoritm de arbore de decizie?

Un arbore de decizie este un fel de algoritm de învățare automată supravegheat care are un nod rădăcină și noduri frunză. Fiecare nod reprezintă o caracteristică, iar legăturile dintre noduri arată decizia. Fiecare frunză reprezintă un rezultat.

Să presupunem că vrei să mergi la piață să cumperi legume. Ai două variante: ori mergi, ori nu. Dacă nu mergi, nu vei primi legumele, dar dacă o faci, va trebui să ajungi la piață, ceea ce duce la o altă secțiune de alegere. Un arbore de decizie funcționează exact așa.

Aplicații pentru arbori de decizie

Iată câteva aplicații ale arborilor de decizie:

Marketing:

Companiile pot folosi arbori de decizie pentru a spori acuratețea campaniilor lor promoționale, observând performanța produselor și serviciilor concurenților. Arborele de decizie poate ajuta la segmentarea publicului și poate sprijini companiile în producerea de reclame mai bine direcționate, care au rate de conversie mai mari.

Reținerea clienților:

Companiile folosesc arbori de decizie pentru reținerea clienților prin analizarea comportamentelor lor și lansarea de noi oferte sau produse care să se potrivească acestor comportamente. Folosind modele de arbore de decizie, companiile își pot da seama și de nivelurile de satisfacție ale clienților lor.

Diagnosticul bolilor și afecțiunilor:

Arborele de decizie poate ajuta medicii și profesioniștii din domeniul medical în identificarea pacienților care prezintă un risc mai mare de a dezvolta afecțiuni grave (sau care pot fi prevenite), cum ar fi diabetul sau demența. Capacitatea arborilor de decizie de a restrânge posibilitățile în funcție de variabile specifice este destul de utilă în astfel de cazuri.

Detectarea fraudelor:

Companiile pot preveni frauda folosind arbori de decizie pentru a identifica în prealabil comportamentul fraudulos. Poate economisi companiilor o mulțime de resurse, inclusiv timp și bani.

Avantajele și dezavantajele arborilor de decizie

Avantajele algoritmului arborelui de decizie:

Următoarele sunt principalele avantaje ale utilizării unui arbore de decizie în R:

Înțelegerea rezultatelor este mai ușoară decât alte modele. Puteți solicita echipei tehnice să vă programeze modelul arborelui de decizie, astfel încât să funcționeze mai rapid și să îl puteți aplica unor instanțe noi. Calculele sale au teste de includere în funcție de o instanță, care este un model calitativ sau cantitativ.
Este neparametric. Din acest motiv, variabilele independente prezente în problema noastră nu trebuie să urmeze nicio distribuție de probabilitate specifică. Puteți avea variabile coliniare. Indiferent dacă sunt discriminatori sau nu, nu are un impact asupra arborelui de decizie, deoarece nu trebuie să aleagă acele variabile.
Sunt capabili să lucreze cu valorile lipsă. CHAID pune toate valorile lipsă într-o categorie, pe care o puteți îmbina cu alta sau o puteți păstra separat de altele.
Valorile individuale extreme (cum ar fi valorile aberante) nu au un efect prea mare asupra arborilor de decizie. Le puteți izola în noduri mici, astfel încât să nu afecteze întreaga clasificare.
Vă oferă o reprezentare vizuală excelentă a procesului de luare a deciziilor. Fiecare ramură a unui arbore de decizie reprezintă factorii care vă pot afecta deciziile și puteți vedea o imagine mai mare. Puteți folosi arbori de decizie pentru a îmbunătăți comunicarea în echipa dvs.
Arborii CART pot gestiona direct toate tipurile de variabile, inclusiv variabile calitative, continue și discrete.

Dezavantajele algoritmului arborelui decizional

Nu analizează toate variabilele independente simultan. În schimb, le evaluează secvenţial. Din acest motiv, arborele nu revizuiește niciodată diviziunea unui nod la niciun nivel, ceea ce poate provoca părtinire în alegerile arborelui.
Modificarea chiar și a unei singure variabile poate afecta întregul arbore dacă este aproape de vârf. Există modalități de a rezolva această problemă. De exemplu, puteți construi arborele pe mai multe mostre și le puteți agrega în funcție de o medie (sau vot); aceasta se numește reeșantionare. Cu toate acestea, duce la un alt set de probleme, deoarece reduce lizibilitatea modelului făcându-l mai complex. Deci, prin reeșantionare, puteți scăpa de cele mai bune calități ale arborilor de decizie. De ce este o problemă? Să presupunem că o variabilă are toate calitățile unui anumit grup, dar are și calitatea conform căreia arborele se împarte. În acest caz, arborele l-ar pune în clasa greșită doar pentru că are acea calitate importantă.
Toate nodurile unui anumit nivel dintr-un arbore de decizie depind de nodurile din nivelurile lor anterioare. Cu alte cuvinte, modul în care definiți nodurile de la nivelul „n +1” depinde în întregime de definiția dvs. pentru nodurile de la nivelul „n”. Dacă definiția dvs. la nivelul „n” este greșită, toate nivelurile ulterioare și nodurile prezente în acele niveluri ar fi, de asemenea, greșite.

Învățați: regresia liniară în învățarea automată

Arborele de decizie în R (Exemplu)

Veți avea nevoie de rpart pentru a construi un arbore de decizie în R. Folosim rpart pentru clasificare. În R, construiți un arbore de decizie pe baza unui algoritm de partiționare recursiv care generează o decizie și, împreună cu aceasta, arbori de regresie. Are doi pasi:

În primul rând, va identifica o variabilă care împarte datele în două grupuri separate în cel mai bun mod posibil.
În al doilea rând, va repeta procesul din pasul anterior pe fiecare subgrup până când acele grupuri ating o anumită dimensiune sau dacă nu mai poate aduce îmbunătățiri în acele subgrupuri.

Avem următoarele date ca exemplu:

În datele de mai sus, aveți timpul și accelerația unei biciclete. Trebuie să prevedem accelerația acesteia în funcție de timp. Vom face acest lucru făcând următoarele:

1 bibliotecă (rpart)

Apoi încărcați datele:

1date (bicicletă)

Acum, vom crea un grafic de dispersie:

1 plot(accel~times,data=bike)

Odată, am făcut asta și vom crea arborele:

1mct <- rpart(accel ~ times, data=bike)

Pasul nostru final este să trasăm graficul:

1 parcelă (mct)

Citiți: Cum să creați un arbore de decizie perfect?

Gânduri finale

Avem acum un model perfect funcțional al arborelui de decizie în R. Puteți găsi mai multe tutoriale similare pe blogul nostru.

Dacă sunteți interesat să aflați mai multe despre arbori de decizie, învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini. , statutul de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Care este cea mai semnificativă caracteristică a unui algoritm de arbore de decizie?

Algoritmii arborelui de decizie sunt un instrument valoros pentru determinarea și analiza riscului și sunt adesea exprimați ca un grafic sau o listă de reguli. Simplitatea utilizării algoritmilor arborelui de decizie este una dintre caracteristicile sale cele mai esențiale. Sunt ușor de înțeles și relevante, deoarece sunt vizuale. Chiar dacă utilizatorii nu sunt familiarizați cu construcția algoritmilor arborelui de decizie, ei îl pot aplica cu succes. Algoritmii arborelui de decizie sunt cel mai frecvent folosiți pentru a anticipa evenimente viitoare pe baza experienței anterioare și pentru a ajuta la luarea deciziilor raționale. Un alt domeniu semnificativ al algoritmilor arborelui de decizie este data mining, unde arborii de decizie sunt utilizați ca instrument de clasificare și modelare, așa cum se discută mai jos.

Cât de important este un algoritm de arbore de decizie?

Un algoritm de arbore de decizie are avantajul important de a forța analiza tuturor rezultatelor imaginabile ale unei decizii și de a urmări fiecare cale până la o concluzie. Acesta generează un studiu detaliat al implicațiilor de-a lungul fiecărei ramuri și indică nodurile de decizie care necesită mai multă investigație. De asemenea, fiecărei dificultati, cale de decizie și rezultat i se atribuie o valoare unică de către algoritmii arborelui de decizie. Această metodă evidențiază căile de decizie importante, reduce incertitudinea, elimină ambiguitatea și clarifică implicațiile financiare ale cursurilor alternative de acțiune. Când informațiile faptice nu sunt disponibile, utilizatorii pot folosi algoritmi de arbore de decizie pentru a pune opțiunile în perspectivă unul cu celălalt pentru comparații simple, folosind probabilități pentru circumstanțe.

Pe ce tehnică se bazează algoritmul arborelui de decizie?

Algoritmul arborelui de decizie se bazează pe tehnica arborelui de decizie, care poate fi utilizată pentru probleme de clasificare și regresie. Numele implică utilizarea unei structuri arborescente asemănătoare unei diagrame de flux pentru a afișa previziunile rezultate dintr-o succesiune de împărțiri bazate pe caracteristici. Începe cu un nod rădăcină și se încheie cu o decizie a frunzei. Un arbore de decizie este alcătuit din trei tipuri de noduri, adică Pătrate care reprezintă în mod obișnuit nodurile de decizie, Nodurile șansa care sunt de obicei reprezentate în cercuri și Triunghiuri care simbolizează nodurile finale.