Arborele de decizie în R: Componente, Tipuri, Pași de construit, Provocări
Publicat: 2020-04-02„Arborele de decizie în R” este reprezentarea grafică a alegerilor care pot fi făcute și care ar putea fi rezultatele acestora. Este reprezentat sub forma unui arbore grafic. Diferite părți ale arborelui reprezintă diverse activități ale decidentului. Este o modalitate eficientă de a stabili vizual diferitele posibilități și rezultate ale unei anumite acțiuni.
Cuprins
De ce ar trebui să folosesc un arbore de decizie în R?
Ați putea pune la îndoială importanța arborilor de decizie în R . Arborele de decizie nu numai că prezintă problema și soluțiile diferite, ci și toate opțiunile posibile. Aceste opțiuni pot fi provocările cu care se confruntă decidentul pentru a veni cu o gamă mai largă de soluții.
De asemenea, ajută la analiza diferitelor posibile consecințe ale unei probleme și la planificare în avans. Oferă un cadru cuprinzător, astfel încât să puteți cuantifica cu ușurință și valorile diferitelor rezultate. Acest lucru este deosebit de important atunci când probabilitatea condiționată intră în imagine.
Care sunt diferitele părți ale unui arbore de decizie în R?
Pentru a înțelege și interpreta ce înseamnă un arbore de decizie, trebuie să înțelegeți care sunt diferitele părți ale unui arbore de decizie. S-ar putea să întâlniți acești termeni foarte des când vă uitați la arborii de decizie.
- Nodurile: Nodurile unui arbore reprezintă un eveniment care a avut loc sau o alegere pe care decidentul trebuie să o facă.
- Margini: Acestea sunt diferitele condiții sau reguli care sunt stabilite.
- Nodul rădăcină: Acesta arată întreaga populație sau eșantion în cazul unei vizualizări a unui eșantion.
- Divizarea: Acesta este momentul în care nodul este împărțit în sub-noduri.
- Nodurile de decizie: acestea sunt sub-nodurile specifice care se împart în continuare.
- Frunza: Aceștia sunt termenii de sfârșit sau nodurile care nu se împart, de asemenea.
- Tunderea: Aceasta este eliminarea sub-nodurilor unui nod de decizie.
- Ramura: Acestea sunt sub-secțiuni ale unui întreg arbore de decizie.
Citiți: Știința datelor vs Știința deciziilor
Cum pot folosi arborele de decizie din R?
Deoarece arborii de decizie pot fi făcute numai în R, trebuie să instalați mai întâi R. Acest lucru se poate face foarte rapid online. După ce descărcați R, trebuie să creați și să vizualizați pachete pentru a utiliza arbori de decizie. Un pachet care permite acest lucru este „petrecere”. Când introduceți comanda install.package („partid”), puteți utiliza reprezentări ale arborelui de decizie. Arborele de decizie sunt, de asemenea, considerați algoritmi complicati și supravegheați.
Cum funcționează arborii de decizie în R?
Arborele de decizie sunt mai des folosiți în învățarea automată și în extragerea datelor atunci când utilizați R. Elementul esențial utilizat în acest caz este datele observate sau de antrenament. După aceasta, este creat un model cuprinzător. Un set de date de validare este, de asemenea, utilizat pentru a actualiza și îmbunătăți arborele de decizie.
Aflați mai multe: Vizualizarea datelor în programarea R
Care sunt diferitele tipuri de arbori de decizie?
Cele mai importante tipuri de arbori de decizie sunt arborii de clasificare și regresie. Acestea sunt utilizate în general atunci când intrările și ieșirile sunt categorice.
Arbori de clasificare: Acestea sunt modele de arbore în care variabila poate lua un anumit set de valori. În aceste cazuri, frunzele reprezintă etichetele clasei, în timp ce ramurile reprezintă conjuncțiile unei trăsături diferite. În general, este un tip de arbore „da” sau „nu”.
Arbori de regresie: Există arbori de decizie care au o variabilă care poate lua valori continue.
Când combinați ambele tipuri de arbori de decizie de mai sus, obțineți CART sau arbori de clasificare și regresie. Acesta este un termen umbrelă, pe care s-ar putea să îl întâlniți de mai multe ori. Acestea se referă la procedurile menționate mai sus. Singura diferență dintre aceste două este tipul de variabile dependente – fie categorice, fie numerice.

Care sunt pașii implicați în construirea unui arbore de decizie pe R?
Pasul 1: Import - Importați setul de date pe care doriți să îl analizați.
Pasul 2: Curățare - Setul de date trebuie curățat.
Pasul 3: Creați un tren sau un set de testare - Acest lucru implică faptul că algoritmul trebuie antrenat pentru a prezice etichetele și apoi utilizat pentru deducere.
Pasul 4: Construiți modelul - Sintaxa rpart() este folosită pentru aceasta. Aceasta înseamnă că nodurile continuă să se despartă până când se ajunge la un punct în care divizarea ulterioară nu este posibilă.
Pasul 5: Predicți-vă setul de date - Folosiți sintaxa predict() pentru acest pas.
Pasul 6: Măsurați performanța - Acest pas arată acuratețea matricei.
Pasul 7: Reglați hiper-parametrii - Pentru a controla aspectele potrivirii, arborele de decizie are diverși parametri. Parametrii pot fi controlați folosind funcția rpart.control().
Citește și: R Tutorial pentru începători
Care sunt provocările utilizării unui arbore de decizie în R?
Tunderea poate fi un proces obositor și trebuie făcută cu atenție pentru a obține o reprezentare exactă. De asemenea, poate exista o instabilitate ridicată chiar și în cazul unei mici modificări. Deci, este foarte volatil, ceea ce poate fi supărător pentru utilizatori, în special pentru începători. În plus, poate eșua să producă rezultate și rezultate dezirabile în câteva cazuri.
Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
Încheierea
Dacă doriți să faceți o alegere optimă, știind și care vor fi consecințele, asigurați-vă că știți cum să utilizați arborele de decizie din R. Este o reprezentare schematică a ceea ce s-ar putea întâmpla și ce nu. Există mai multe componente diferite ale unui arbore de decizie, care sunt explicate mai sus. Este un algoritm de învățare automată popular și puternic de utilizat.
Ce este un arbore de decizie și categoriile sale?
Un arbore de decizie este un instrument de sprijin care posedă o structură asemănătoare arborelui pentru modelarea rezultatelor probabile, consecințelor posibile, utilităților și, de asemenea, costul resurselor. Arborele de decizie facilitează afișarea diferiților algoritmi cu ajutorul instrucțiunilor de control condiționat. Un arbore de decizie include ramuri pentru reprezentarea diferiților pași de luare a deciziilor care conduc în cele din urmă la un rezultat favorabil.
Pe baza variabilei țintă, există două tipuri principale de arbori de decizie.
1. Arborele de decizie a variabilelor categorice - În acest arbore de decizie, variabilele țintă sunt împărțite în diferite categorii. Categoriile vor determina că fiecare proces de decizie se va încadra în oricare dintre categorii și nu există șanse de intermediari în niciun caz.
2. Arborele de decizie variabilă continuă - Există o variabilă țintă continuă în acest arbore de decizie. De exemplu, dacă venitul oricărei persoane este necunoscut, atunci acesta ar putea fi cunoscut cu ajutorul informațiilor disponibile precum vârsta, ocupația și orice altă variabilă continuă.
Care sunt aplicațiile arborilor de decizie?
Există două aplicații principale ale arborilor de decizie.
1. Utilizarea datelor demografice pentru a găsi clienți potențiali - Orice organizație își poate eficientiza bugetul de marketing pentru a lua decizii informate, astfel încât banii să fie cheltuiți la locul potrivit, având în vedere datele demografice adecvate.
2. Evaluarea oportunităților de creștere potențiale - Arborele de decizie sunt utile în evaluarea datelor istorice pentru evaluarea oportunităților de creștere potențiale în orice afacere și ajută la extindere.
Care sunt avantajele și dezavantajele arborilor de decizie?
Avantaje-
1. Ușor de citit și interpretat - Puteți citi și interpreta cu ușurință rezultatele arborilor de decizie chiar și fără cunoștințe statistice.
2. Ușor de pregătit - Arborele de decizie necesită foarte puțin efort pentru pregătirea datelor în comparație cu orice altă tehnică de decizie.
3. Mai puțină cerință de curățare a datelor - Arborele de decizie necesită destul de puțină curățare a datelor, deoarece variabilele sunt deja create.
Dezavantaje-
1. Natura instabilă - Cea mai mare limitare este că arborii de decizie sunt foarte instabili în comparație cu alte tehnici de decizie. Chiar dacă există o mică modificare a datelor, aceasta va reflecta o schimbare uriașă în structura deciziei.
2. Mai puțin eficient pentru prezicerea rezultatelor unei variabile continue - Când variabilele trebuie clasificate în mai multe categorii, arborii de decizie tind să piardă informații.