Avantaje și dezavantaje ale regresiei arborelui de decizie în învățarea automată

Publicat: 2020-12-24

Unul dintre cei mai populari algoritmi de învățare automată, regresia arborelui de decizie, este folosit atât de concurenți, cât și de profesioniștii în știința datelor. Acestea sunt modele predictive care calculează o valoare țintă pe baza unui set de reguli binare.

Este folosit pentru a construi atât modele de regresie, cât și modele de clasificare sub forma unei structuri arborescente. Seturile de date sunt împărțite în subseturi mai mici într-un arbore de decizie, în timp ce un arbore de decizie asociat este construit în mod incremental simultan.

Un arbore de decizie este utilizat pentru a ajunge la o estimare bazată pe efectuarea unei serii de întrebări pe setul de date. Adresând aceste întrebări adevărat/fals, modelul este capabil să restrângă valorile posibile și să facă o predicție. Ordinea și conținutul întrebării sunt decise de modelul însuși.

Cuprins

Care sunt termenii arborelui decizional?

Un arbore de decizie are ramuri, noduri, frunze etc. Un nod rădăcină este un nod inițial care reprezintă întregul eșantion sau populație și poate fi împărțit în continuare în alte noduri sau seturi omogene. Un nod de decizie este format din două sau mai multe noduri care reprezintă valori separate ale atributului testat.

Un nod frunză/terminal nu se împarte în noduri suplimentare și reprezintă o decizie. O ramură sau sub-arbore este o subsecțiune a unui întreg copac. Divizarea este procesul de împărțire a unui nod în două sau mai multe sub-noduri. Opusul împărțirii se numește tăiere, adică eliminarea sub-nodurilor unui nod de decizie. Un nod părinte este un nod care este împărțit în sub-noduri, iar sub-nodul este nodul copil.

Înrudit: Ghid pentru algoritmul arborelui de decizie

Cum functioneazã?

Algoritmul arborelui de decizie folosește un punct de date și parcurge întregul arbore punând întrebări adevărat/fals. Pornind de la nodul rădăcină, se pun întrebări și se creează ramuri separate pentru fiecare răspuns, iar acest lucru continuă până când se ajunge la nodul frunză. Partiționarea recursiva este utilizată pentru a construi arborele.

Un arbore de decizie este un model de învățare automată supravegheat și, prin urmare, învață să mapeze datele la ieșiri în faza de instruire a construirii modelului. Acest lucru se realizează prin potrivirea modelului cu date istorice care trebuie să fie relevante pentru problemă, împreună cu valoarea sa adevărată pe care modelul ar trebui să învețe să o prezică cu acuratețe. Acest lucru ajută modelul să învețe relațiile dintre date și variabila țintă.

După această fază, arborele de decizie este capabil să construiască un arbore similar calculând întrebările și ordinea acestora, ceea ce îl va ajuta să facă cea mai precisă estimare. Astfel, predicția depinde de datele de antrenament care sunt introduse în model.

Cum se decide împărțirea?

Decizia de împărțire este diferită pentru arbori de clasificare și regresie, iar acuratețea predicției arborelui depinde în mare măsură de aceasta. Eroarea medie pătratică (MSE) este de obicei folosită pentru a decide dacă se împarte un nod în două sau mai multe sub-noduri într-o regresie a arborelui de decizie . În cazul unui arbore binar, algoritmul alege o valoare și împarte datele în două subseturi, calculează MSE pentru fiecare subset și alege cea mai mică valoare MSE ca rezultat.

Implementarea regresiei arborelui decizional

Structura de bază pentru implementarea unui algoritm de regresie a arborelui de decizie este furnizată în următorii pași.

Import de biblioteci

Primul pas pentru dezvoltarea oricărui model de învățare automată este să importați toate bibliotecile necesare pentru dezvoltare.

Se încarcă datele

După importarea bibliotecilor, următorul pas este încărcarea setului de date. Datele pot fi descărcate sau utilizate din folderele locale ale utilizatorului.

Împărțirea setului de date

Odată ce datele sunt încărcate, acestea trebuie împărțite într-un set de antrenament și un set de testare și creând variabilele x și y. De asemenea, valorile trebuie remodelate pentru a face datele în formatul necesar.

Antrenarea modelului

Aici modelul de regresie a arborelui de date este antrenat utilizând setul de antrenament creat în pasul anterior.

Prezicerea rezultatelor

Aici rezultatele setului de testare sunt prezise folosind modelul antrenat pe setul de antrenament.

Evaluarea modelului

Performanța modelului este verificată prin compararea valorilor reale și a valorilor prezise în etapa finală. Precizia modelului poate fi dedusă prin compararea acestor valori. Vizualizarea rezultatelor prin crearea unui grafic al valorilor ajută, de asemenea, la măsurarea acurateței modelului.

Citiți: Cum să creați un arbore de decizie perfect?

Avantaje

Modelul arborelui de decizie poate fi utilizat atât pentru probleme de clasificare, cât și pentru probleme de regresie și este ușor de interpretat, înțeles și vizualizat.
Rezultatul unui arbore de decizie poate fi, de asemenea, ușor de înțeles.
În comparație cu alți algoritmi, pregătirea datelor în timpul preprocesării într-un arbore de decizie necesită mai puțin efort și nu necesită normalizarea datelor.
Implementarea se poate face și fără scalarea datelor.
Un arbore de decizie este una dintre cele mai rapide moduri de a identifica relațiile dintre variabile și cea mai semnificativă variabilă.
De asemenea, pot fi create funcții noi pentru o mai bună predicție a variabilei țintă.
Arborele de decizie nu sunt influențați în mare măsură de valori aberante sau de valori lipsă și poate gestiona atât variabile numerice, cât și variabile categoriale.
Deoarece este o metodă neparametrică, nu are ipoteze despre distribuțiile spațiului și structura clasificatorului.

Dezavantaje

Suprafitting este una dintre dificultățile practice ale modelelor de arbore de decizie. Se întâmplă atunci când algoritmul de învățare continuă să dezvolte ipoteze care reduc eroarea setului de antrenament, dar cu prețul creșterii erorii setului de test. Dar această problemă poate fi rezolvată prin tăierea și stabilirea de constrângeri asupra parametrilor modelului.
Arborii de decizie nu pot fi folosiți bine cu variabile numerice continue.
O mică modificare a datelor tinde să provoace o diferență mare în structura arborescentă, ceea ce provoacă instabilitate.
De asemenea, calculele implicate pot deveni complexe în comparație cu alți algoritmi și este nevoie de mai mult timp pentru a antrena modelul.
De asemenea, este relativ costisitor, deoarece timpul necesar și nivelurile de complexitate sunt mai mari.

Concluzie

Algoritmul de regresie a arborelui de decizie a fost explicat prin acest articol prin descrierea modului în care arborele este construit împreună cu definiții scurte ale diferiților termeni referitori la acesta. De asemenea, este inclusă o scurtă descriere a modului în care funcționează arborele de decizie și a modului în care este luată decizia privind împărțirea oricărui nod.

Cum poate fi implementată regresia unui arbore de decizie de bază a fost de asemenea explicat printr-o succesiune de pași. În cele din urmă, au fost prezentate avantajele și dezavantajele unui algoritm de arbore de decizie.

Dacă sunteți interesat să aflați mai multe despre arbori de decizie, învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini. , statutul de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Ce este regresia în învățarea automată?

Regresia este folosită pentru a prezice variabile continue. Este atunci când trebuie să prezicem un număr. De exemplu, dacă doriți să estimați prețurile caselor dintr-un oraș, pe baza caracteristicilor precum dimensiunea casei și zona orașului, va fi folosită regresia. Problemele de regresie sunt foarte ușor de rezolvat folosind regresia liniară. Pe scurt, regresia este actul de a estima o valoare de ieșire necunoscută pe baza unei valori de intrare.

Ce sunt arborii de decizie?

Un arbore de decizie este o diagramă care arată toate deciziile posibile și rezultatele posibile. Arborele de decizie sunt adesea folosiți pentru a examina modul în care deciziile influențează rezultatele viitoare. De exemplu, un arbore de decizie poate ajuta o companie să analizeze dacă ar trebui să cumpere depozite suplimentare sau să construiască un nou centru de distribuție. În general, arborii de decizie sunt utilizați în cercetarea operațională și în știința managementului. Arborii de decizie sunt un concept comun și popular în procesul de luare a deciziilor și planificarea programelor. Ele pot fi folosite pentru a alege între cursuri de acțiune atunci când unele dintre cursurile posibile se exclud reciproc și când rezultatul fiecărei acțiuni depinde de starea lumii.

Care sunt avantajele și dezavantajele arborilor de decizie?

Modelul arborilor de decizie poate fi utilizat pentru orice clasă de probleme, fie pentru clasificare, fie pentru predicție numerică. Poate fi extins la orice clasă de probleme. Poate fi folosit atât pentru clasificarea supravegheată, cât și pentru clasificarea nesupravegheată. Poate gestiona un amestec de caracteristici numerice și categoriale. Oferă rezultate stabile. Cu toate acestea, este dificil de înțeles motivul din spatele predicției. Trebuie înțeles că modelul nu învață cea mai bună împărțire în fiecare nod al arborelui, ci învață distribuția de probabilitate a clasei în fiecare nod. Această cerință face ca modelul să fie intens de calcul și îl împiedică să manipuleze cantități mari de date.