Arborele de decizie în învățarea automată explicat [cu exemple]

Publicat: 2020-12-21

Introducere

Decision Tree Learning este o tehnică obișnuită de extragere a datelor și este o formă de învățare automată supravegheată. Un arbore de decizie este ca o diagramă în care oamenii reprezintă o probabilitate statistică sau găsesc cursul întâmplării, acțiunii sau rezultatul. Un exemplu de arbore de decizie face mai clară înțelegerea conceptului.

Ramurile din diagrama unui arbore de decizie arată un rezultat probabil, o decizie posibilă sau o reacție. Ramura de la sfârșitul arborelui de decizie afișează predicția sau un rezultat. Arborele de decizie sunt de obicei folosiți pentru a găsi o soluție pentru o problemă care devine complicată de rezolvat manual. Să înțelegem acest lucru în detaliu cu ajutorul câtorva exemple de arbore de decizie.

Un arbore de decizie este unul dintre instrumentele populare, precum și puternice, care este utilizat pentru predicția și clasificarea datelor sau a unui eveniment. Este ca o diagramă, dar având o structură a unui copac. Nodurile interne ale arborilor reprezintă un test sau o întrebare asupra unui atribut; fiecare ramură este rezultatul posibil al întrebării adresate, iar nodul terminal, care este numit și nodul frunză, denotă o etichetă de clasă.

Într-un arbore de decizie, avem mai multe variabile predictoare. În funcție de aceste variabile predictoare, încercați să preziceți așa-numita variabilă de răspuns.

Citiți și: Clasificarea arborelui de decizie: tot ce trebuie să știți

Arborele decizional în ML

Reprezentând câțiva pași sub forma unei secvențe, arborele de decizie devine o modalitate ușoară și eficientă de a înțelege și vizualiza posibilele opțiuni de decizie și potențialele rezultate din interval. Arborele de decizie sunt, de asemenea, de ajutor în identificarea posibilelor opțiuni și în cântărirea recompenselor și riscurilor în raport cu fiecare curs de acțiune care poate fi obținută.

Un arbore de decizie este implementat în multe organizații la scară mică, precum și la scară mare, ca un fel de sistem de sprijin în luarea deciziilor. Deoarece un exemplu de arbore de decizie este un model structurat, cititorii pot înțelege diagrama și pot analiza cum și de ce o anumită opțiune poate duce la o decizie corespunzătoare. Exemplul arborelui de decizie permite, de asemenea, cititorului să prezică și să obțină mai multe soluții posibile pentru o singură problemă, să înțeleagă formatul și relația dintre diferite evenimente și date cu decizia.

Fiecare rezultat din arbore are o recompensă și un număr de risc sau o pondere atribuită. Dacă folosiți vreodată un arbore de decizie, atunci veți avea fiecare rezultat final cu un posibil dezavantaj și beneficii. Pentru a vă încheia arborele în mod corespunzător, îl puteți întinde cât de scurt sau atât de lung cât este necesar, în funcție de eveniment și de cantitatea de date. Să luăm un exemplu simplu de arbore de decizie pentru a-l înțelege mai bine.

Luați în considerare datele furnizate, care constau în detalii despre oameni, cum ar fi: dacă sunt băutori, fumători, greutatea lor și vârsta la care acești oameni au murit.

Nume băutor Fumător Greutate Vârsta (decedat)
Sam da da 120 44
Maria Nu Nu 70 96
Jonas da Nu 72 88
Taylor da da 55 52
Joe Nu da 94 56
Harry Nu Nu 62 93

Să încercăm să prezicem dacă oamenii vor muri la o vârstă mai fragedă sau la o vârstă mai înaintată. Caracteristici precum băutorul, fumătorul și greutatea vor acționa ca valoare predictivă. Folosind acestea, vom considera vârsta ca o variabilă de răspuns.

Să etichetăm că oamenii care au murit înainte de 70 de ani au murit „tineri”, iar cei care au murit după vârsta de 70 de ani au murit „bătrâni”. Să prezicem acum variabila răspuns pe baza variabilei predictor. Mai jos este un arbore de decizie luat după învățarea datelor.

Arborele de decizie de mai sus explică că, dacă o persoană este fumătoare, moare tânără. Dacă o persoană nu este fumătoare, atunci următorul factor luat în considerare este dacă persoana respectivă este sau nu un băutor. Dacă o persoană nu este fumătoare și nu băutoare, persoana moare bătrână.

Dacă o persoană nu este fumătoare și este un băutor, atunci se ia în considerare greutatea persoanei. Dacă o persoană nu fumează, este un băutor și cântărește sub 90 kg, atunci persoana moare bătrână. Și, în sfârșit, dacă o persoană nu este fumătoare, este un băutor și cântărește peste 90 kg, atunci moare tânără.

Din datele date să luăm exemplul lui Jonas pentru a verifica dacă arborele de decizie este clasificat corect și dacă prezice corect variabila răspuns. Jonas nu este fumător, este un băutor și cântărește sub 90 kg. Conform arborelui de decizie, el va muri în vârstă (vârsta la care moare>70). De asemenea, conform datelor, acesta a murit la vârsta de 88 de ani, asta înseamnă că exemplul arborelui de decizie a fost clasificat corect și a funcționat perfect.

Dar te-ai întrebat vreodată despre ideea de bază din spatele funcționării unui arbore de decizie? Într-un arbore de decizie, setul de instanțe este împărțit în subseturi astfel încât variația în fiecare subset devine mai mică. Adică, dorim să reducem entropia și, prin urmare, variația este redusă și se încearcă ca evenimentul sau instanța să fie pură.

Să luăm în considerare un exemplu de arbore de decizie similar . În primul rând, luăm în considerare dacă persoana este fumătoare sau nu.

Aici, suntem nesiguri cu privire la nefumători. Deci, l-am împărțit în băutor și nebăutor.

Putem vedea din diagrama de mai jos că am trecut de la o entropie mare cu variații mari la reducerea ei la o clasă mai mică în care suntem mai siguri. În acest mod, puteți construi progresiv orice exemplu de arbore de decizie .

Să construim un arbore de decizie folosind algoritmul ID3. Ceea ce este mai important în arborele de decizie este o înțelegere puternică a Entropiei. Entropia nu este altceva decât gradul de incertitudine. Este dat de:

(Uneori, este de asemenea notat cu „E”)

Dacă îl aplicăm la exemplul de mai sus, va merge după cum urmează:

Luați în considerare cazul când nu avem oameni împărțiți în nicio categorie. Este cel mai rău caz (entropie mare) când ambele tipuri de oameni au aceeași cantitate. Raportul aici este de 3:3.

În mod similar, pentru persoanele care nu beau, au un raport de 1:1 și entropia ar fi 1. Astfel, are nevoie de o împărțire suplimentară din cauza incertitudinii. Pentru persoanele care nu beau, raportul este de 2:0. Prin urmare, entropia este 0.

Acum, am calculat entropia pentru diferitele cazuri și, prin urmare, putem calcula media ponderată pentru aceleași cazuri.

Pentru prima ramură, E= 6 6 1=1

Pentru clasa de fumători, E= 2 6 0+ 4 6 0,811=0,54

Pentru clasa de fumători și băutori, E= 2 6 0+ 2 6 1+ 2 6 0=0,33

Diagrama de mai jos vă va ajuta să înțelegeți rapid calculele de mai sus.

În sfârșit, câștigul de informații:

Clasă Entropie Câștig de informații (E2-E1)
oameni 1 0,46
Fumător 0,54 0,21
Fumător + Băutor 0,33

Citește și: Întrebări și răspunsuri la interviu pentru Arborele de decizie

Concluzie

Am studiat cu succes arborii de decizie în profunzime, de la teorie până la un exemplu practic de arbore de decizie . De asemenea, am construit un arbore de decizie folosind algoritmul ID3. Dacă ați găsit acest lucru interesant, s-ar putea să vă placă să explorați știința datelor în detaliu.

Dacă sunteți interesat să aflați mai multe despre arbori de decizie, învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și sarcini. , statutul de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Ce sunt arborii de decizie?

Arborele de decizie sunt utilizați pentru a organiza vizual și a organiza informațiile de luare a deciziilor. Copacii sunt desenați astfel încât rădăcina să fie în vârf și frunzele în partea de jos. Arborele de decizie se citesc de jos în sus, deplasându-se de la stânga la dreapta. Fiecare nivel al arborelui este o bază pentru teste ulterioare, iar deciziile de la fiecare nivel vor restrânge domeniul de aplicare până când se răspunde la întrebare. Un arbore de decizie descompune o problemă sau o decizie în mai multe sub-decizii și urmează calea logică către rădăcină, care este scopul principal. Arborii de decizie sunt folosiți pentru a analiza mediul de afaceri, pentru a prioritiza și pentru a oferi perspective, pentru a lua decizii asupra direcției de luat.

Care sunt problemele învățării arborelui de decizie în învățarea automată?

Arborii de decizie pot fi folosiți ca bază pentru testarea de noi strategii sau pentru a explica strategiile altora. Un arbore de decizie explică ce se va întâmpla în baza unui set dat de ipoteze. Ele pot fi folosite și pentru a evalua performanța unei strategii care a fost folosită în trecut. Se știe că arborii de decizie sunt prea susceptibili la erori din cauza tuturor ramurilor lor. Arborele decizional nu sunt întotdeauna exacti, deoarece, uneori, nu iau în considerare toate variabilele posibile, iar persoana care analizează arborele de decizie s-ar putea să nu aibă experiență în toate aspectele situației particulare.

Ce fel de date sunt cele mai bune pentru Decision Trees?

Arborele de decizie vă ajută să găsiți modele în date folosind o structură de tip diagramă flux. Cel mai bun tip de date ar fi calitative, categorice și numerice. Deși Decision Trees funcționează cu toate tipurile de date, aceștia funcționează cel mai bine cu date numerice. Ei trebuie să poată avea valori care sunt numere sau ar trebui să existe o modalitate de a le traduce în numere. Arborele de decizie depind în mare măsură de tipul de date, precum și de cantitate. Dacă numărul de puncte de date este mai mare de 100, Arborele de decizie ar fi un model bun.