Domande e risposte sull'intervista sull'albero decisionale [per principianti ed esperti]

Pubblicato: 2020-09-22

Nel mondo dell'apprendimento automatico, gli alberi decisionali sono basati su uno di loro, se non il più rispettabile, algoritmo. Anche gli alberi decisionali sono potenti. Gli alberi decisionali vengono utilizzati sia per prevedere i valori continui (regressione) sia per prevedere le classi (eseguire la classificazione o classificare) delle istanze fornite all'algoritmo.

Gli alberi decisionali sono simili a un diagramma di flusso nella sua struttura. Il nodo di qualsiasi albero decisionale rappresenta un test eseguito sull'attributo. Ogni ramo dell'albero decisionale è rappresentativo dei risultati dell'esame condotto su ciascun nodo. Il nodo di ogni foglia (che è anche noto come nodi terminali) contiene l'etichetta della classe.

Riguardava la struttura dell'albero; tuttavia, l'aumento della popolarità degli alberi decisionali non è dovuto al modo in cui vengono creati. La trasparenza dell'albero gli conferisce una posizione a sé stante nel mondo dominato da algoritmi potenti e utili. Puoi effettivamente fare tutto a mano per un piccolo albero decisionale e puoi prevedere come sarebbe formato l'albero decisionale. Per alberi di dimensioni maggiori, questo esercizio diventa piuttosto noioso.

Tuttavia, ciò non significa che non sarai in grado di capire cosa sta facendo l'albero in ogni nodo. La capacità di cogliere ciò che sta accadendo dietro le quinte o sotto il cofano differenzia davvero gli alberi decisionali da qualsiasi altro algoritmo di apprendimento automatico disponibile.

Come abbiamo visto quanto siano vitali gli alberi decisionali, è intrinseco che gli alberi decisionali siano fondamentali anche per qualsiasi professionista dell'apprendimento automatico o scienziato dei dati. Per aiutarti a comprendere questo concetto e allo stesso tempo per aiutarti a ottenere quel tocco in più nel tuo stile di intervista, abbiamo creato un elenco completo di domande di intervista sull'albero decisionale e domande e risposte sull'intervista sull'albero decisionale. Queste domande dovrebbero aiutarti a superare qualsiasi colloquio. Prova a risolvere ciascuna di queste domande prima di leggere le soluzioni per ottenere il massimo da queste domande.

Sommario

Domande e risposte sull'intervista dell'albero decisionale

Q1. Vedrai due affermazioni elencate di seguito. Dovrai leggerli entrambi attentamente e quindi scegliere una delle opzioni tra le due opzioni delle affermazioni. La domanda contestuale è: scegli le affermazioni vere sull'insaccamento degli alberi.

I singoli alberi non dipendono affatto l'uno dall'altro per un albero insaccante.
Per migliorare le prestazioni complessive del modello, l'aggregato è preso da studenti deboli. Questo metodo è noto come insaccamento degli alberi.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Nessuna delle opzioni sopra menzionate.

Ans. La risposta corretta a questa domanda è C perché, per un albero di bagging, entrambe queste affermazioni sono vere. Negli alberi di bagging o nell'aggregazione bootstrap, l'obiettivo principale dell'applicazione di questo algoritmo è ridurre la quantità di varianza presente nell'albero decisionale. Il meccanismo di creazione di un albero di insacco è che con la sostituzione vengono presi un certo numero di sottoinsiemi dal campione presente per addestrare i dati.

Ora, ciascuno di questi piccoli sottoinsiemi di dati viene utilizzato per addestrare un albero decisionale separato. Poiché le informazioni che vengono immesse in ciascun albero risultano essere uniche, la probabilità che un albero abbia un impatto sull'altro diventa molto bassa. Il risultato finale fornito da tutti questi alberi viene raccolto e quindi elaborato per fornire l'output. Pertanto, anche la seconda affermazione risulta essere vera.

Q2. Vedrai due affermazioni elencate di seguito. Dovrai leggerli entrambi attentamente e quindi scegliere una delle opzioni tra le due opzioni delle affermazioni. La domanda contestuale è: scegli le affermazioni vere sul potenziamento degli alberi.

Gli studenti deboli in un albero di potenziamento sono indipendenti l'uno dall'altro.
Le prestazioni degli studenti deboli vengono tutte raccolte e aggregate per migliorare le prestazioni complessive dell'albero potenziato.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Nessuna delle opzioni sopra menzionate.

Ans. Se dovessi capire come viene fatto il potenziamento degli alberi, capirai e sarai in grado di differenziare l'affermazione corretta dall'affermazione, che è falsa. Quindi, viene creato un albero potenziato quando molti studenti deboli sono collegati in serie. Ogni albero presente in questa sequenza ha un solo scopo: ridurre l'errore commesso dal suo predecessore.

Se gli alberi sono collegati in questo modo, tutti gli alberi non possono essere indipendenti l'uno dall'altro, rendendo così falsa la prima affermazione. Quando si arriva alla seconda affermazione, è vero principalmente perché, in un albero potenziato, questo è il metodo applicato per migliorare le prestazioni complessive del modello. L'opzione corretta sarà B, cioè solo l'istruzione numero due è VERO e l'istruzione numero uno è FALSA.

Q3. Vedrai quattro affermazioni elencate di seguito. Dovrai leggerli tutti attentamente e quindi scegliere una delle opzioni tra quelle che seguono le quattro affermazioni. La domanda contestuale è: scegli le affermazioni vere sulle foreste di Radom e sul metodo dell'insieme di amplificazione del gradiente.

Entrambi i metodi Random forest e Gradient boosting ensemble possono essere utilizzati per eseguire la classificazione.
Le foreste casuali possono essere utilizzate per eseguire attività di classificazione, mentre il metodo di aumento del gradiente può eseguire solo la regressione.
L'aumento del gradiente può essere utilizzato per eseguire attività di classificazione, mentre il metodo Random Forest può eseguire solo la regressione.
Entrambi i metodi Random forest e Gradient boosting Ensemble possono essere utilizzati per eseguire la regressione.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Solo l'affermazione numero tre è VERO
Solo l'affermazione numero quattro è VERO
Solo l'affermazione numero uno e quattro è VERO

Ans. La risposta a questa domanda è semplice. Entrambi questi metodi di insieme sono in realtà molto in grado di svolgere sia compiti di classificazione che di regressione. Quindi, la risposta a questa domanda sarebbe F perché solo le affermazioni numero uno e quattro sono VERE.

Q4 Vedrai quattro affermazioni elencate di seguito. Dovrai leggerli tutti attentamente e quindi scegliere una delle opzioni tra quelle che seguono le quattro affermazioni. La domanda contestuale è, considera una foresta di alberi casuale. Quindi cosa sarà vero per ciascuno o uno qualsiasi degli alberi nella foresta casuale?

Ogni albero che costituisce la foresta casuale si basa sul sottoinsieme di tutte le caratteristiche.
Ciascuno di in una foresta casuale è costruito su tutte le funzionalità.
Ciascuno degli alberi in una foresta casuale è costruito su un sottoinsieme di tutte le osservazioni presenti.
Ciascuno degli alberi in una foresta casuale è costruito sull'intero set di osservazione.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Solo l'affermazione numero tre è VERO
Solo l'affermazione numero quattro è VERO
Entrambe le affermazioni numero uno e quattro sono VERE
Entrambe le affermazioni numero uno e tre sono VERE
Entrambe le affermazioni numero due e tre sono VERE
Entrambe le affermazioni numero due e quattro sono VERE

Ans. La generazione di foreste casuali si basa sul concetto di insacco. Per costruire una foresta casuale, viene preso un piccolo sottoinsieme sia dalle osservazioni che dalle caratteristiche. I valori ottenuti dopo aver eliminato i sottoinsiemi vengono quindi inseriti in alberi decisionali singolari. Quindi tutti i valori di tutti questi alberi decisionali vengono raccolti per prendere la decisione finale. Ciò significa che le uniche affermazioni corrette sarebbero una e tre. Quindi, l'opzione giusta sarebbe G.

Q5 Vedrai quattro affermazioni elencate di seguito. Dovrai leggerli tutti attentamente e quindi scegliere una delle opzioni tra quelle che seguono le quattro affermazioni. La domanda contestuale è selezionare le affermazioni corrette sull'iperparametro noto come "max_depth" dell'algoritmo di aumento del gradiente.

La scelta di un valore inferiore di questo iperparametro è migliore se l'accuratezza del set di convalida è simile.
La scelta di un valore più alto di questo iperparametro è migliore se l'accuratezza del set di convalida è simile.
Se vogliamo aumentare il valore di questo iperparametro, aumentano le possibilità che questo modello superi effettivamente i dati.
Se vogliamo aumentare il valore di questo iperparametro, aumentano le possibilità che questo modello non si adatti effettivamente ai dati.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Solo l'affermazione numero tre è VERO
Solo l'affermazione numero quattro è VERO
Entrambe le affermazioni numero uno e quattro sono VERE
Entrambe le affermazioni numero uno e tre sono VERE
Entrambe le affermazioni numero due e tre sono VERE
Entrambe le affermazioni numero due e quattro sono VERE

Ans. L'iperparametro max_depth controlla la profondità fino a quando l'aumento del gradiente modellizzerà i dati presentati davanti ad esso. Se continui ad aumentare il valore di questo iperparametro, allora il modello è destinato a overfit. Quindi, l'affermazione numero tre è corretta. Se abbiamo gli stessi punteggi sui dati di validazione, generalmente preferiamo il modello con una profondità inferiore. Quindi, le affermazioni numero uno e tre sono corrette, e quindi la risposta a queste domande dell'intervista sull'albero decisionale è g.

Q6. Vedrai quattro affermazioni elencate di seguito. Dovrai leggerli tutti attentamente e quindi scegliere una delle opzioni tra quelle che seguono le quattro affermazioni. La domanda contestuale è quale dei seguenti metodi non ha un tasso di apprendimento come uno dei loro iperparametri sintonizzabili.

Alberi extra.
AdaBoost
Foresta casuale
Aumento del gradiente.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Solo l'affermazione numero tre è VERO
Solo l'affermazione numero quattro è VERO
Entrambe le affermazioni numero uno e quattro sono VERE
Entrambe le affermazioni numero uno e tre sono VERE
Entrambe le affermazioni numero due e tre sono VERE
Entrambe le affermazioni numero due e quattro sono VERE

Ans. Solo gli alberi extra e la foresta casuale non hanno un tasso di apprendimento come uno dei loro iperparametri sintonizzabili. Quindi, la risposta sarebbe g perché l'affermazione numero uno e tre è VERO.

Q7. Scegli l'opzione, che è vera.

Solo nell'algoritmo della foresta casuale, i valori reali possono essere gestiti rendendoli discreti.
Solo nell'algoritmo di incremento del gradiente, i valori reali possono essere gestiti rendendoli discreti.
Sia nella foresta casuale che nell'aumento del gradiente, i valori reali possono essere gestiti rendendoli discreti.
Nessuna delle opzioni sopra menzionate.

Ans. Entrambi gli algoritmi sono capaci. Entrambi possono facilmente gestire le caratteristiche che hanno valori reali in loro. Quindi, la risposta a queste domande e risposte dell'intervista sull'albero decisionale è C.

Q8. Scegli un'opzione dall'elenco sottostante. La domanda è, scegli l'algoritmo che non è un algoritmo di apprendimento dell'insieme.

Aumento del gradiente
AdaBoost
Alberi extra
Foresta casuale
Alberi decisionali

Ans. Questa domanda è semplice. Solo uno di questi algoritmi non è un algoritmo di apprendimento d'insieme. Una regola empirica da tenere a mente sarà che qualsiasi metodo di apprendimento d'insieme implicherebbe l'uso di più di un albero decisionale. Poiché nell'opzione E c'è solo l'albero decisionale singolare, non si tratta di un algoritmo di apprendimento dell'insieme. Quindi, la risposta a questa domanda sarebbe E (alberi decisionali).

Q9. Vedrai due affermazioni elencate di seguito. Dovrai leggerli entrambi attentamente e quindi scegliere una delle opzioni tra le due opzioni delle affermazioni. La domanda contestuale è, quale delle seguenti affermazioni sarebbe vera nel paradigma dell'apprendimento d'insieme.

Il conteggio degli alberi nell'insieme dovrebbe essere il più alto possibile.
Sarai comunque in grado di interpretare ciò che sta accadendo anche dopo aver implementato l'algoritmo di Random Forest.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Nessuna delle opzioni sopra menzionate.

Ans. Poiché qualsiasi metodo di apprendimento dell'insieme si basa sull'accoppiamento di un numero colossale di alberi decisionali (che di per sé è uno studente molto debole), quindi sarà sempre vantaggioso avere un numero maggiore di alberi per creare il metodo dell'insieme. Tuttavia, l'algoritmo della foresta casuale è come una scatola nera. Non saprai cosa sta succedendo all'interno del modello. Quindi, sei destinato a perdere tutta l'interpretabilità dopo aver applicato l'algoritmo della foresta casuale. Quindi, la risposta corretta a questa domanda sarebbe A perché solo l'affermazione che è vera è l'affermazione numero uno.

Q10. Rispondi solo in VERO o FALSO. L'algoritmo di bagging funziona meglio per i modelli che hanno una varianza elevata e una bassa distorsione?

Ans. Vero. Il bagging in effetti è più favorevole da utilizzare per il modello ad alta varianza e bassa distorsione.

Q11. . Vedrai due affermazioni elencate di seguito. Dovrai leggerli entrambi attentamente e quindi scegliere una delle opzioni tra le due opzioni delle affermazioni. La domanda contestuale è, scegli le idee giuste per gli alberi che aumentano il gradiente.

In ogni fase del potenziamento, l'algoritmo introduce un altro albero per garantire che tutti i problemi del modello corrente siano compensati.
Possiamo applicare un algoritmo di discesa del gradiente per ridurre al minimo la funzione di perdita.
Solo l'istruzione numero uno è VERO.
Solo l'affermazione numero due è VERO.
Entrambe le affermazioni uno e due sono VERE.
Nessuna delle opzioni sopra menzionate.

Ans. La risposta a questa domanda è C, il che significa che entrambe le due opzioni sono VERE. Per la prima affermazione, è così che funziona l'algoritmo di potenziamento. I nuovi alberi introdotti nel modello servono solo ad aumentare le prestazioni dell'algoritmo esistente. Sì, l'algoritmo di discesa del gradiente è la funzione applicata per ridurre la funzione di perdita.

Q12. Nell'algoritmo di aumento del gradiente, quale delle seguenti affermazioni è corretta sulla velocità di apprendimento?

Il tasso di apprendimento che hai impostato dovrebbe essere il più alto possibile.
Il tasso di apprendimento che imposti non dovrebbe essere il più alto possibile, ma il più basso possibile.
Il tasso di apprendimento dovrebbe essere basso ma non molto basso.
Il tasso di apprendimento che stai impostando dovrebbe essere alto ma non super alto.

Ans. Il tasso di apprendimento dovrebbe essere basso, ma non molto basso, quindi la risposta a queste domande e risposte dell'intervista sull'albero decisionale sarebbe l'opzione C.

Dai un'occhiata a: Domande sull'intervista sull'apprendimento automatico

Cosa succede dopo?

Se sei interessato a saperne di più sull'albero decisionale, Machine Learning, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, stato di Alumni IIIT-B, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Come si può migliorare l'albero decisionale?

Un albero decisionale è uno strumento per creare un semplice aiuto visivo in cui condizionali autonomi o punti decisionali sono rappresentati come nodi e i vari possibili esiti come foglie. In parole semplici, un albero decisionale è un modello del processo decisionale. È possibile migliorare l'albero decisionale assicurandosi che i criteri di arresto siano sempre espliciti. Quando il criterio di arresto non è esplicito, ci si chiede se sia necessaria un'ulteriore esplorazione e si lasciano anche dubbi sull'opportunità o meno di fermarsi. L'albero decisionale dovrebbe anche essere costruito in modo tale che diventi facile da seguire e non confonda il lettore.

Perché la precisione dell'albero decisionale è così bassa?

La precisione dell'albero decisionale è inferiore a quanto ci saremmo aspettati. Ciò può verificarsi per i seguenti motivi: Dati non validi: è molto importante utilizzare i dati corretti per gli algoritmi di apprendimento automatico. Dati errati possono portare a risultati errati. Casualità - A volte, il sistema è così complesso che è impossibile prevedere cosa accadrà in futuro. In questo caso, anche l'accuratezza dell'albero decisionale diminuirà. Overfitting - L'albero decisionale potrebbe non essere in grado di catturare l'unicità dei dati e quindi può essere considerato come una generalizzazione. Se gli stessi dati vengono utilizzati per regolare l'albero, è possibile che i dati si adattino eccessivamente.

Come viene potato un albero decisionale?

Un albero decisionale viene potato utilizzando un algoritmo branch and bound. Un algoritmo branch and bound trova la soluzione ottimale per l'albero decisionale iterando attraverso i nodi dell'albero e delimitando il valore della funzione obiettivo ad ogni iterazione. La funzione obiettivo è il valore dell'albero decisionale per l'azienda. Ad ogni nodo, l'algoritmo rimuove un ramo dell'albero o sfoltisce un ramo in un nuovo nodo. La parte migliore è che un ramo può essere potato anche se porta a una soluzione non ottimale.