Întrebări și răspunsuri la interviu în arborele decizional [Pentru începători și cu experiență]

Publicat: 2020-09-22

În lumea învățării automate, arborii de decizie sunt unul dintre ei, dacă nu cel mai respectabil, algoritm. Arborele de decizie sunt și ei puternici. Arborii de decizie sunt folosiți atât pentru a prezice valorile continue (regresiune), cât și pentru a prezice clase (efectuează clasificare sau clasificare) ale instanțelor furnizate algoritmului.

Arborele de decizie sunt similare cu o diagramă de flux în structura sa. Nodul oricărui arbore de decizie reprezintă un test efectuat asupra atributului. Fiecare ramură a arborelui de decizie este reprezentativă pentru rezultatele examinării efectuate pe fiecare nod. Nodul fiecărei frunze (care este cunoscut și ca noduri terminale) deține eticheta clasei.

Cam asta era structura arborelui; cu toate acestea, creșterea popularității arborilor de decizie nu se datorează modului în care sunt creați. Transparența arborelui îi conferă o poziție proprie în lumea dominată de algoritmi puternici și utili. De fapt, puteți face totul manual pentru un arbore de decizie mic și puteți prezice cum va fi format arborele de decizie. Pentru copacii care au dimensiuni mai mari, acest exercițiu devine destul de obositor.

Cu toate acestea, asta nu înseamnă că nu veți putea înțelege ce face arborele la fiecare nod. Abilitatea de a înțelege ceea ce se întâmplă în culise sau sub capotă diferențiază cu adevărat arborii de decizie de orice alt algoritm de învățare automată.

După cum am văzut cât de vitali sunt arborii de decizie, este inerent că arborii de decizie ar fi, de asemenea, esențiali pentru orice profesionist în învățarea automată sau om de știință a datelor. Pentru a vă ajuta să înțelegeți acest concept și, în același timp, pentru a vă ajuta să obțineți acel zing suplimentar în stilul dvs. de interviu, am făcut o listă cuprinzătoare de întrebări la interviu în arborele decizional și întrebări și răspunsuri la interviu în arborele de decizie. Aceste întrebări ar trebui să vă ajute să acceptați orice interviu. Încercați să rezolvați fiecare dintre aceste întrebări mai întâi înainte de a citi soluțiile pentru a profita la maximum de aceste întrebări.

Cuprins

Arborele de decizie Interviu Întrebări și răspunsuri

Î1. Veți vedea două declarații enumerate mai jos. Va trebui să le citiți pe ambele cu atenție și apoi să alegeți una dintre opțiunile dintre opțiunile celor două declarații. Întrebarea contextuală este: Alegeți afirmațiile care sunt adevărate despre împachetarea copacilor.

Copacii individuali nu sunt deloc dependenți unul de celălalt pentru un arbore de ambalaj.
Pentru a îmbunătăți performanța generală a modelului, agregatul este preluat de la cursanții slabi. Această metodă este cunoscută sub denumirea de însacare a copacilor.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Niciuna dintre opțiunile menționate mai sus.

Ans. Răspunsul corect la această întrebare este C deoarece, pentru un arbore de ambalaj, ambele afirmații sunt adevărate. În arborii de bagging sau agregarea bootstrap, scopul principal al aplicării acestui algoritm este de a reduce cantitatea de varianță prezentă în arborele de decizie. Mecanismul creării unui arbore de ambalare este că, odată cu înlocuirea, un număr de subseturi sunt prelevate din eșantionul prezent pentru antrenarea datelor.

Acum, fiecare dintre aceste subseturi mai mici de date este folosită pentru a antrena un arbore de decizie separat. Deoarece informațiile care sunt introduse în fiecare copac devin unice, probabilitatea ca orice copac să aibă vreun impact asupra celuilalt devine foarte scăzută. Rezultatul final pe care îl dau toți acești copaci este colectat și apoi procesat pentru a furniza rezultatul. Astfel, a doua afirmație se dovedește a fi adevărată.

Q2. Veți vedea două declarații enumerate mai jos. Va trebui să le citiți pe ambele cu atenție și apoi să alegeți una dintre opțiunile dintre opțiunile celor două declarații. Întrebarea contextuală este: Alegeți afirmațiile care sunt adevărate despre creșterea arborilor.

Cursanții slabi dintr-un arbore de stimulare sunt independenți unul de celălalt.
Performanța slabă a cursanților este colectată și agregată pentru a îmbunătăți performanța generală a arborelui îmbunătățit.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Niciuna dintre opțiunile menționate mai sus.

Ans. Dacă ar fi să înțelegeți cum se face creșterea copacilor, veți înțelege și veți putea diferenția afirmația corectă de afirmația, care este falsă. Deci, un arbore amplificat este creat atunci când mulți cursanți slabi sunt conectați în serie. Fiecare arbore prezent în această secvență are un singur scop: reducerea erorii pe care a făcut-o predecesorul său.

Dacă copacii sunt conectați în acest mod, toți copacii nu pot fi independenți unul de celălalt, ceea ce face ca prima afirmație să fie falsă. Când ajungem la a doua afirmație, este adevărat în principal pentru că, într-un arbore amplificat, aceasta este metoda care se aplică pentru a îmbunătăți performanța generală a modelului. Opțiunea corectă va fi B, adică numai afirmația numărul doi este ADEVĂRAT, iar afirmația numărul unu este FALSĂ.

Q3. Veți vedea patru declarații enumerate mai jos. Va trebui să le citiți pe toate cu atenție și apoi să alegeți una dintre opțiunile din opțiunile care urmează celor patru afirmații. Întrebarea contextuală este: Alegeți afirmațiile care sunt adevărate despre pădurile Radom și metoda ansamblului de creștere a gradului.

Pentru a efectua clasificarea, pot fi utilizate atât metodele de ansamblu ale pădurii aleatoare, cât și cele de creștere a gradului.
Pădurile aleatoare pot fi utilizate pentru a efectua sarcini de clasificare, în timp ce metoda de creștere a gradientului poate efectua doar regresie.
Amplificarea gradientului poate fi folosită pentru a efectua sarcini de clasificare, în timp ce metoda Random Forest poate efectua doar regresie.
Atât metodele de ansamblu ale pădurii aleatoare, cât și cele de creștere a gradientului pot fi utilizate pentru a efectua regresia.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Doar afirmația numărul trei este ADEVĂRATĂ
Doar afirmația numărul patru este ADEVĂRATĂ
Doar afirmația numărul unu și patru este ADEVĂRAT

Ans. Răspunsul la această întrebare este simplu. Ambele metode de ansamblu sunt de fapt foarte capabile să facă atât sarcini de clasificare, cât și de regresie. Deci, răspunsul la această întrebare ar fi F deoarece numai afirmațiile numărul unu și patru sunt ADEVĂRATĂ.

Q4 Veți vedea patru afirmații enumerate mai jos. Va trebui să le citiți pe toate cu atenție și apoi să alegeți una dintre opțiunile din opțiunile care urmează celor patru afirmații. Întrebarea contextuală este, luați în considerare o pădure aleatorie de copaci. Deci, ce va fi adevărat despre fiecare sau oricare dintre copacii din pădurea întâmplătoare?

Fiecare copac care constituie pădurea aleatorie se bazează pe subsetul tuturor caracteristicilor.
Fiecare dintre cele dintr-o pădure aleatoare este construită pe toate caracteristicile.
Fiecare dintre copacii dintr-o pădure aleatorie este construit pe un subset al tuturor observațiilor prezente.
Fiecare dintre copacii dintr-o pădure aleatorie este construit pe setul complet de observare.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Doar afirmația numărul trei este ADEVĂRATĂ
Doar afirmația numărul patru este ADEVĂRATĂ
Ambele afirmații numărul unu și patru sunt ADEVĂRATĂ
Atât afirmațiile numărul unu, cât și cele trei sunt ADEVĂRATĂ
Atât afirmațiile numărul doi, cât și cele trei sunt ADEVĂRATĂ
Atât afirmațiile numărul doi, cât și cele patru sunt ADEVĂRATĂ

Ans. Generarea de păduri aleatorii se bazează pe conceptul de însac. Pentru a construi o pădure aleatoare, un mic subset este luat atât din observații, cât și din caracteristici. Valorile care sunt obținute după eliminarea submulților sunt apoi introduse în arbori de decizie singulari. Apoi toate valorile din toți astfel de arbori de decizie sunt colectate pentru a lua decizia finală. Asta înseamnă că singurele afirmații care sunt corecte ar fi unu și trei. Deci, opțiunea potrivită ar fi G.

Q5 Veți vedea patru afirmații enumerate mai jos. Va trebui să le citiți pe toate cu atenție și apoi să alegeți una dintre opțiunile din opțiunile care urmează celor patru afirmații. Întrebarea contextuală este, selectați afirmațiile corecte despre hiperparametrul cunoscut sub numele de „max_depth” al algoritmului de creștere a gradientului.

Alegerea unei valori mai mici a acestui hiperparametru este mai bună dacă acuratețea setului de validare este similară.
Alegerea unei valori mai mari a acestui hiperparametru este mai bună dacă acuratețea setului de validare este similară.
Dacă este să creștem valoarea acestui hiperparametru, atunci șansele ca acest model să supraadapteze datele cresc.
Dacă este să creștem valoarea acestui hiperparametru, atunci șansele ca acest model să nu corespundă efectiv datelor cresc.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Doar afirmația numărul trei este ADEVĂRATĂ
Doar afirmația numărul patru este ADEVĂRATĂ
Ambele afirmații numărul unu și patru sunt ADEVĂRATĂ
Atât afirmațiile numărul unu, cât și cele trei sunt ADEVĂRATĂ
Atât afirmațiile numărul doi, cât și cele trei sunt ADEVĂRATĂ
Atât afirmațiile numărul doi, cât și cele patru sunt ADEVĂRATĂ

Ans. Hiperparametrul max_depth controlează adâncimea până când creșterea gradientului va modela datele prezentate în fața acestuia. Dacă continuați să creșteți valoarea acestui hiperparametru, atunci modelul este obligat să se supraajusteze. Deci, afirmația numărul trei este corectă. Dacă avem aceleași scoruri la datele de validare, în general preferăm modelul cu o adâncime mai mică. Deci, afirmațiile numărul unu și trei sunt corecte și, prin urmare, răspunsul la întrebările de interviu din arborele de decizie este g.

Î6. Veți vedea patru declarații enumerate mai jos. Va trebui să le citiți pe toate cu atenție și apoi să alegeți una dintre opțiunile din opțiunile care urmează celor patru afirmații. Întrebarea contextuală este care dintre următoarele metode nu are o rată de învățare ca unul dintre hiperparametrii reglabili.

Copaci suplimentari.
AdaBoost
Pădurea aleatorie
Creșterea gradientului.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Doar afirmația numărul trei este ADEVĂRATĂ
Doar afirmația numărul patru este ADEVĂRATĂ
Ambele afirmații numărul unu și patru sunt ADEVĂRATĂ
Atât afirmațiile numărul unu, cât și cele trei sunt ADEVĂRATĂ
Atât afirmațiile numărul doi, cât și cele trei sunt ADEVĂRATĂ
Atât afirmațiile numărul doi, cât și cele patru sunt ADEVĂRATĂ

Ans. Numai arborii suplimentari și pădurea aleatorie nu au o rată de învățare ca unul dintre hiperparametrii lor reglabili. Deci, răspunsul ar fi g deoarece afirmația numărul unu și trei sunt ADEVĂRATĂ.

Î7. Alegeți opțiunea, ceea ce este adevărat.

Numai în algoritmul pădurii aleatorii, valorile reale pot fi gestionate făcându-le discrete.
Numai în algoritmul de creștere a gradientului, valorile reale pot fi gestionate făcându-le discrete.
Atât în pădure aleatoare, cât și în creșterea gradientului, valorile reale pot fi gestionate făcându-le discrete.
Niciuna dintre opțiunile menționate mai sus.

Ans. Ambii algoritmi sunt capabili. Ambii pot gestiona cu ușurință caracteristicile care au valori reale în ele. Deci, răspunsul la întrebările și răspunsurile la acest interviu din arborele de decizie este C.

Î8. Alegeți o opțiune din lista de mai jos. Întrebarea este, alegeți algoritmul care nu este un algoritm de învățare de ansamblu.

Creșterea gradientului
AdaBoost
Copaci suplimentari
Pădurea aleatorie
Arbori de decizie

Ans. Această întrebare este simplă. Doar unul dintre acești algoritmi nu este un algoritm de învățare ansamblu. O regulă generală de reținut va fi că orice metodă de învățare prin ansamblu ar implica utilizarea a mai mult de un arbore de decizie. Deoarece în opțiunea E, există doar arborele de decizie singular, atunci acesta nu este un algoritm de învățare ansamblu. Deci, răspunsul la această întrebare ar fi E (arborele de decizie).

Q9. Veți vedea două declarații enumerate mai jos. Va trebui să le citiți pe ambele cu atenție și apoi să alegeți una dintre opțiunile dintre opțiunile celor două declarații. Întrebarea contextuală este, care dintre următoarele ar fi adevărată în paradigma învățării în ansamblu.

Numărul de copaci din ansamblu ar trebui să fie cât mai mare posibil.
Veți putea în continuare să interpretați ceea ce se întâmplă chiar și după ce implementați algoritmul Random Forest.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Niciuna dintre opțiunile menționate mai sus.

Ans. Deoarece orice metodă de învățare prin ansamblu se bazează pe cuplarea unui număr colosal de arbori de decizie (care în sine este un învățător foarte slab), așa că va fi întotdeauna benefic să aveți mai mulți arbori pentru a face metoda de ansamblu. Cu toate acestea, algoritmul pădurii aleatorii este ca o cutie neagră. Nu veți ști ce se întâmplă în interiorul modelului. Deci, sunteți obligat să pierdeți toată interpretabilitatea după ce aplicați algoritmul de pădure aleatoare. Deci, răspunsul corect la această întrebare ar fi A deoarece numai afirmația care este adevărată este afirmația numărul unu.

Q10. Răspundeți numai în adevăr sau fals. Algoritmul de ambalare funcționează cel mai bine pentru modelele care au varianță mare și părtinire scăzută?

Ans. Adevărat. Ambalarea într-adevăr este cea mai favorabilă pentru a fi utilizată pentru modele cu variație mare și părtinire redusă.

Q11. . Veți vedea două declarații enumerate mai jos. Va trebui să le citiți pe ambele cu atenție și apoi să alegeți una dintre opțiunile dintre opțiunile celor două declarații. Întrebarea contextuală este să alegeți ideile potrivite pentru arbori de creștere a gradului.

În fiecare etapă de amplificare, algoritmul introduce un alt arbore pentru a se asigura că toate problemele actuale ale modelului sunt compensate.
Putem aplica un algoritm de coborâre a gradientului pentru a minimiza funcția de pierdere.
Doar afirmația numărul unu este ADEVĂRAT.
Doar afirmația numărul doi este ADEVĂRAT.
Ambele afirmații unu și doi sunt ADEVĂRATĂ.
Niciuna dintre opțiunile menționate mai sus.

Ans. Răspunsul la această întrebare este C, ceea ce înseamnă că ambele opțiuni sunt ADEVĂRATE. Pentru prima afirmație, așa funcționează algoritmul de amplificare. Noii arbori introduși în model sunt doar pentru a crește performanța algoritmului existent. Da, algoritmul de coborâre a gradientului este funcția care este aplicată pentru a reduce funcția de pierdere.

Q12. În algoritmul de creștere a gradientului, care dintre afirmațiile de mai jos sunt corecte cu privire la rata de învățare?

Rata de învățare pe care o setați ar trebui să fie cât mai mare posibil.
Rata de învățare pe care o setați nu ar trebui să fie cât mai mare posibil, mai degrabă cât de scăzută puteți.
Rata de învățare ar trebui să fie scăzută, dar nu foarte scăzută.
Rata de învățare pe care o setați ar trebui să fie mare, dar nu foarte mare.

Ans. Rata de învățare ar trebui să fie scăzută, dar nu foarte scăzută, astfel încât răspunsul la întrebările și răspunsurile la interviu din arborele de decizie ar fi opțiunea C.

Consultați: Întrebări de interviu pentru învățare automată

Ce urmează?

Dacă sunteți interesat să aflați mai multe despre arborele de decizie, Machine Learning, consultați IIIT-B & upGrad's PG Diploma in Machine Learning & AI, care este conceput pentru profesioniști care lucrează și oferă peste 450 de ore de formare riguroasă, peste 30 de studii de caz și misiuni, statutul de absolvenți IIIT-B, peste 5 proiecte practice practice și asistență la locul de muncă cu firme de top.

Cum poate fi îmbunătățit arborele de decizie?

Un arbore de decizie este un instrument pentru a crea un ajutor vizual simplu în care punctele autonome condiționale sau de decizie sunt reprezentate ca noduri și diferitele rezultate posibile ca frunze. Cu cuvinte simple, un arbore de decizie este un model al procesului de luare a deciziilor. Puteți îmbunătăți arborele de decizie, asigurându-vă că criteriile de oprire sunt întotdeauna explicite. Atunci când criteriile de oprire nu sunt explicite, cineva se întreabă dacă este necesară o explorare suplimentară și, de asemenea, lasă îndoieli cu privire la faptul că ar trebui să se oprească sau nu. Arborele de decizie ar trebui, de asemenea, să fie construit în așa fel încât să devină ușor de urmărit și să nu deranjeze cititorul.

De ce este atât de scăzută precizia arborelui de decizie?

Precizia arborelui de decizie este mai mică decât ne-am fi așteptat. Acest lucru se poate întâmpla din următoarele motive: Date greșite - Este foarte important să folosiți datele corecte pentru algoritmii de învățare automată. Datele proaste pot duce la rezultate greșite. Aleatorie - Uneori, sistemul este atât de complex încât este imposibil de prezis ce se va întâmpla în viitor. În acest caz, acuratețea arborelui de decizie va scădea și ea. Supraajustare - Arborele de decizie poate să nu poată surprinde unicitatea datelor și, prin urmare, poate fi considerat ca o generalizare. Dacă aceleași date sunt utilizate pentru a ajusta arborele, datele se pot supraîncadra.

Cum este tăiat un arbore de decizie?

Un arbore de decizie este tăiat folosind un algoritm de ramificare și legat. Un algoritm ramificat și legat găsește soluția optimă pentru arborele de decizie prin iterarea prin nodurile arborelui și delimitând valoarea funcției obiectiv la fiecare iterație. Funcția obiectivă este valoarea arborelui de decizie pentru afacere. La fiecare nod, algoritmul fie îndepărtează o ramură a arborelui, fie tăie o ramură la un nou nod. Cea mai bună parte este că o ramură poate fi tăiată chiar dacă aceasta duce la o soluție neoptimală.