Clasificarea arborelui decizional: tot ce trebuie să știți

Publicat: 2020-05-29

Cuprins

Introducere
Din ce sunt alcătuiți arborii de decizie?
Clasificarea arborelui de decizie
- 1. Arbori de clasificare
- 2. Arbori de regresie
Cum se creează arborii de decizie?
Diviza și cuceri
Cum funcționează clasificatorul arborelui de decizie?
Avantajele utilizării clasificării arborelui de decizie
Dezavantajele utilizării clasificatorului arborelui de decizie
Concluzie
Arborii de decizie sunt înclinați să se supraadapteze?
Arborii de decizie au nevoie de normalizare?
Cum să îmbinați arbori de decizie?

Introducere

Multe analogii ar putea fi conduse din natură în viețile noastre reale; copacii se întâmplă să fie unul dintre cei mai influenți dintre ei. Copacii și-au avut impactul într-o zonă considerabilă a învățării automate. Acestea acoperă atât clasificarea esențială, cât și regresia. Atunci când se analizează orice decizie, ar putea fi folosit un clasificator de arbore de decizie pentru a reprezenta procesul de luare a deciziilor.

Deci, practic, un arbore de decizie se întâmplă să fie o parte a învățării automate supravegheate în care procesarea datelor are loc prin împărțirea datelor în mod continuu, ținând totodată cont de un anumit parametru.

Din ce sunt alcătuiți arborii de decizie?

Răspunsul la întrebare este simplu. Arborele de decizie sunt alcătuiți din trei lucruri esențiale, analogia cu fiecare dintre ele ar putea fi atrasă de un arbore din viața reală. Toate trei sunt enumerate mai jos:

Noduri: Acesta este locul unde are loc testarea valorii. Într-un nod, valoarea unui anumit atribut este transmisă și este verificată și testată în raport cu valorile pentru a lua o decizie.
Margini/ramuri: Această porțiune corespunde rezultatului oricărui rezultat al testului. Marginile/ramurile sunt, de asemenea, responsabile pentru legarea a două noduri sau frunze diferite.
Nodurile frunzelor: acestea sunt nodurile care se găsesc de obicei la terminale. Nodurile frunzelor sunt responsabile pentru prezicerea rezultatului.

Clasificarea arborelui de decizie

Arborii de decizie pot fi clasificați în linii mari în două categorii, și anume, Arbori de clasificare și Arbori de regresie.

1. Arbori de clasificare

Arborele de clasificare sunt acele tipuri de arbori de decizie care se bazează pe răspunsul la întrebările „Da” sau „Nu” și pe utilizarea acestor informații pentru a lua o decizie. Deci, un arbore, care determină dacă o persoană este aptă sau inaptă, punând o grămadă de întrebări înrudite și folosind răspunsurile pentru a ajunge la o soluție viabilă, este un tip de arbore de clasificare.

Aceste tipuri de arbori sunt de obicei construite prin utilizarea unui proces numit partiționare recursivă binară. Metoda de partiționare recursivă binară implică împărțirea datelor în module sau partiții separate, iar apoi aceste partiții sunt îmbinate în continuare în fiecare ramură a clasificatorului arborelui de decizie .

2. Arbori de regresie

Acum, un tip de regresie de arbore de decizie este diferit de tipul de clasificare a arborelui de decizie într-un aspect. Datele care au fost introduse în cei doi copaci sunt foarte diferite. Arborele de clasificare gestionează datele, care sunt discrete, în timp ce arborii de decizie de regresie se ocupă de tipul de date continuu. Un bun exemplu de arbori de regresie ar fi prețul casei sau cât timp un pacient va rămâne de obicei în spital.

Aflați mai multe: Regresia liniară în învățarea automată

Cum se creează arborii de decizie?

Arborele de decizie sunt creați prin preluarea setului de date pe care modelul trebuie să fie antrenat (arborele de decizie fac parte din învățarea automată supravegheată). Acest set de date de antrenament va fi îmbinat continuu în subseturi de date mai mici. Acest proces este completat de crearea unui arbore de asociere care este creat progresiv cot la cot în procesul de defalcare a datelor. După ce mașina a terminat de învățat, se încheie crearea unui arbore de decizie bazat pe setul de date de antrenament care a fost furnizat, iar acest arbore este apoi returnat utilizatorului.

Ideea centrală din spatele utilizării unui arbore de decizie este de a separa datele în două regiuni primare, regiunea cu populația densă (cluster) sau zona, care sunt regiuni goale (sau rare).

Clasificarea arborelui de decizie funcționează pe un principiu elementar al diviziunii. Cucerește acolo unde orice exemplu nou care a fost introdus în copac, după ce a trecut printr-o serie de teste, va fi organizat și i se va acorda o etichetă de clasă. Algoritmul de împărțire și cucerire este discutat în detalii mai jos:

Diviza și cuceri

Este evident că clasificatorul arborelui de decizie se bazează și se construiește folosind o euristică cunoscută sub numele de partiționare recursivă, cunoscută și sub numele de algoritmul de împărțire și cucerire. Acesta descompune datele în seturi mai mici și continuă să facă acest lucru. Până când nu stabilește că datele din fiecare subset sunt omogene sau dacă utilizatorul a definit un alt criteriu de oprire, asta ar pune capăt acestui algoritm.

Cum funcționează clasificatorul arborelui de decizie ?

Algoritmul de împărțire și cucerire este utilizat pentru a crea un clasificator de arbore de decizie . Prin utilizarea algoritmului începem întotdeauna de la rădăcina arborelui și, de asemenea, împărțim setul de date pentru a reduce incertitudinea în decizia finală.
Se întâmplă să fie un proces iterativ. Deci, repetăm acest proces la fiecare nod. Acest proces se repetă până când nu avem nodurile purității pe care o dorim.
În general, pentru a evita supraadaptarea, stabilim o limită de puritate care trebuie atinsă. Aceasta înseamnă că rezultatul final ar putea să nu fie 100% pur.

Elementele de bază ale algoritmului de împărțire și cucerire:

Mai întâi vine alegerea sau selectarea unui test pentru nodul rădăcină. Apoi începe procesul de creare a ramurilor. Ramurile sunt proiectate ținând cont de fiecare rezultat posibil al procesului care a fost definit.
Urmează împărțirea instanțelor de date în subseturi mai mici. Fiecare ramură ar avea propriul ei splice, care este conectat la nod.
Acest proces trebuie apoi repetat pentru fiecare ramură folosind doar instanțele care vin la ramura în cauză.
Acest proces recursiv ar trebui oprit dacă toate instanțele aparțin aceleiași clase.

Avantajele utilizării clasificării arborelui de decizie

Nu necesită o sumă enormă de bani pentru a construi.
Este un proces rapid de clasificare a înregistrărilor care sunt noi sau necunoscute.
Poate fi foarte ușor de interpretat, mai ales dacă arborele este de dimensiuni mici.
Precizia predicției folosind clasificatorul arborelui de decizie este comparabilă cu alte metode de predicție sau clasificare.
De asemenea, are capacitatea de a exclude caracteristicile care nu sunt importante. Acest proces de eliminare a caracteristicilor irelevante se face automat.

Citiți: Cum să creați un arbore de decizie perfect?

Dezavantajele utilizării clasificatorului arborelui de decizie

Supraadaptarea setului de date este foarte ușoară în acest caz.
Limita deciziei are o restricție. Poate fi doar paralel cu axele, care conține atributele.
Modelele bazate pe arbori de decizie au adesea împărțiri părtinitoare care au un număr masiv de niveluri.
Orice mici modificări aduse setului de date pot avea un impact semnificativ asupra logicii care guvernează decizia.
Copacii Lager sunt dificil de înțeles, deoarece uneori s-ar putea simți foarte contra-intuitivi.

Citește și: Arborele de decizie în învățarea automată

Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Concluzie

Arborele de decizie sunt folositori în timp ce ne confruntăm cu probleme care nu pot fi gestionate cu soluții liniare. Din observații, s-a observat că modelele bazate pe arbore pot mapa cu ușurință neliniaritatea intrărilor și pot elimina eficient problema în cauză. Metodele sofisticate, cum ar fi generarea aleatorie a pădurilor și creșterea gradientului, se bazează toate pe clasificatorul arborelui de decizie în sine.

Arborii de decizie sunt un instrument puternic care poate fi folosit în multe domenii ale vieții reale, cum ar fi inginerie biomedicală, astronomie, control al sistemului, medicamente, fizică etc. Acest lucru face ca clasificarea arborelui de decizie să fie un instrument critic și indispensabil al învățării automate.

Arborii de decizie sunt înclinați să se supraadapteze?

Arborele de decizie fragmentează datele complexe în forme mai simple. O clasificare în arbore de decizie încearcă să împartă datele până când nu pot fi împărțite în continuare. Apoi este creată o diagramă clară a tuturor conținuturilor posibile, care ajută la analiza ulterioară. În timp ce un copac vast cu numeroase îmbinări ne oferă o cale dreaptă, poate genera și o problemă la testarea datelor. Această îmbinare excesivă duce la supraadaptare, în care multe diviziuni fac copacul să crească extraordinar. În astfel de cazuri, capacitatea de predicție a arborelui decizional este compromisă și, prin urmare, devine nesănătoasă. Tunderea este o tehnică folosită pentru a face față supraajustării, în care subseturile excesive sunt îndepărtate.

Arborii de decizie au nevoie de normalizare?

Arborii de decizie sunt cel mai comun algoritm de învățare automată utilizat pentru clasificarea și regresia datelor. Acest mecanism supravegheat îmbină datele per subset în diferite grupuri până când ajunge la nodul frunză, unde nu poate fi împărțit în continuare. Deoarece aceste date vor fi împărțite în categorii în funcție de atributele furnizate, vor fi împărțite în mod egal. Acesta transmite că atât datele care au trecut prin normalizare, cât și cele care nu au trecut, ar avea același număr de împărțiri. Prin urmare, normalizarea nu este o condiție prealabilă pentru modelele de arbore bazate pe decizii.

Cum să îmbinați arbori de decizie?

Arborele de decizie reprezintă un mecanism de încredere pentru a clasifica datele și a prezice soluții. Îmbinarea într-un arbore de decizie necesită precizie; o ușoară greșeală poate compromite integritatea Arborele decizional. Îmbinarea într-un arbore de decizie are loc folosind partiționarea recursivă. Împărțirea datelor începe cu crearea de subseturi de date prin atributele care le sunt atribuite. Datele sunt împărțite recursiv în repetare, până când datele îmbinate la fiecare nod sunt considerate învechite în predicția soluțiilor. Subsetul poate fi, de asemenea, similar cu valoarea variabilei țintă. Îmbinarea trebuie să fie metodică și repetitivă pentru o precizie bună.