Guida all'algoritmo dell'albero decisionale: applicazioni, pro e contro ed esempio

Pubblicato: 2020-12-10

Esistono vari tipi di algoritmi di Machine Learning e ognuno di essi ha applicazioni uniche. In questo articolo, daremo un'occhiata a uno degli algoritmi ML più popolari e utili, l'algoritmo Decision Tree. Abbiamo discusso un esempio dell'albero delle decisioni in R per aiutarti a familiarizzare con il suo utilizzo. Iniziamo.

Sommario

Che cos'è un algoritmo dell'albero decisionale?

Un albero decisionale è una sorta di algoritmo di apprendimento automatico supervisionato che ha un nodo radice e nodi foglia. Ogni nodo rappresenta una caratteristica e i collegamenti tra i nodi mostrano la decisione. Ogni foglia rappresenta un risultato.

Supponiamo di voler andare al mercato a comprare le verdure. Hai due scelte: o vai o no. Se non vai, non otterrai le verdure, ma se lo fai, dovrai andare al mercato, il che porta a un'altra sezione a scelta. Un albero decisionale funziona proprio in questo modo.

Applicazioni degli alberi decisionali

Ecco alcune applicazioni degli alberi decisionali:

Marketing:

Le aziende possono utilizzare gli alberi decisionali per migliorare l'accuratezza delle loro campagne promozionali osservando le prestazioni dei prodotti e dei servizi della concorrenza. Gli alberi decisionali possono aiutare nella segmentazione del pubblico e supportare le aziende nella produzione di annunci pubblicitari più mirati con tassi di conversione più elevati.

Fidelizzazione dei clienti:

Le aziende utilizzano gli alberi decisionali per la fidelizzazione dei clienti attraverso l'analisi dei loro comportamenti e il rilascio di nuove offerte o prodotti adatti a tali comportamenti. Utilizzando i modelli di albero decisionale, le aziende possono anche determinare i livelli di soddisfazione dei propri clienti.

Diagnosi di malattie e disturbi:

Gli alberi decisionali possono aiutare medici e professionisti sanitari a identificare i pazienti che corrono un rischio maggiore di sviluppare condizioni gravi (o prevenibili) come il diabete o la demenza. La capacità degli alberi decisionali di restringere le possibilità in base a variabili specifiche è molto utile in questi casi.

Rilevamento di frodi:

Le aziende possono prevenire le frodi utilizzando alberi decisionali per identificare in anticipo i comportamenti fraudolenti. Può far risparmiare alle aziende molte risorse, inclusi tempo e denaro.

Vantaggi e svantaggi degli alberi decisionali

Vantaggi dell'algoritmo dell'albero decisionale:

I seguenti sono i principali vantaggi dell'utilizzo di un albero decisionale in R:

Comprendere i risultati è più facile rispetto ad altri modelli. Puoi fare in modo che il team tecnico programmi il tuo modello di albero decisionale, in modo che funzioni più velocemente e puoi applicarlo a nuove istanze. I suoi calcoli hanno test di inclusione in base a un'istanza, che è un modello qualitativo o quantitativo.
Non è parametrico. Le variabili indipendenti presenti nel nostro problema non devono seguire alcuna distribuzione di probabilità specifica per questo motivo. Puoi avere variabili collineari. Indipendentemente dal fatto che siano discriminatori o meno, non ha alcun impatto sul tuo albero decisionale perché non deve scegliere quelle variabili.
Sono in grado di lavorare con i valori mancanti. CHAID inserisce tutti i valori mancanti in una categoria, che puoi unire con un'altra o tenere separata dalle altre.
I valori individuali estremi (come i valori anomali) non hanno molto effetto sugli alberi decisionali. Puoi isolarli in piccoli nodi in modo che non influiscano sull'intera classificazione.
Ti offre un'ottima rappresentazione visiva di un processo decisionale. Ogni ramo di un albero decisionale rappresenta i fattori che possono influenzare le tue decisioni e puoi vedere un quadro più ampio. Puoi utilizzare gli alberi decisionali per migliorare la comunicazione nel tuo team.
Gli alberi CART possono gestire direttamente tutti i tipi di variabili, comprese le variabili qualitative, continue e discrete.

Svantaggi dell'algoritmo dell'albero decisionale

Non analizza tutte le variabili indipendenti contemporaneamente. Invece, li valuta in sequenza. Per questo motivo, l'albero non modifica mai la divisione di un nodo a nessun livello, il che può causare errori nelle scelte dell'albero.
La modifica anche di una singola variabile può influenzare l'intero albero se è vicino alla parte superiore. Ci sono modi per risolvere questo problema. Ad esempio, puoi costruire l'albero su più campioni e aggregarli secondo una media (o un voto); questo è chiamato ricampionamento. Tuttavia, porta a un'altra serie di problemi poiché riduce la leggibilità del modello rendendolo più complesso. Quindi, attraverso il ricampionamento, puoi sbarazzarti delle migliori qualità degli alberi decisionali. Perché è un problema? Supponiamo che una variabile abbia tutte le qualità di un particolare gruppo, ma abbia anche la qualità in base alla quale l'albero si divide. In questo caso, l'albero lo collocherebbe nella classe sbagliata solo perché ha quella qualità importante.
Tutti i nodi di un livello specifico in un albero decisionale dipendono dai nodi nei livelli precedenti. In altre parole, il modo in cui definisci i nodi al livello 'n +1' dipende interamente dalla tua definizione per i nodi al livello 'n.' Se la tua definizione al livello 'n' è errata, anche tutti i livelli successivi e i nodi presenti in quei livelli sarebbero errati.

Impara: regressione lineare nell'apprendimento automatico

Albero decisionale in R (esempio)

Avrai bisogno di rpart per costruire un albero decisionale in R. Usiamo rpart per la classificazione. In R, costruisci un albero decisionale sulla base di un algoritmo di partizionamento ricorsivo che genera una decisione e, insieme ad essa, alberi di regressione. Ha due passaggi:

Innanzitutto, identificherà una variabile che suddivide i dati in due gruppi separati nel miglior modo possibile.
In secondo luogo, ripeterà il processo nel passaggio precedente su ogni sottogruppo fino a quando quei gruppi non raggiungono una dimensione particolare o se non possono più apportare miglioramenti in quei sottogruppi.

Abbiamo i seguenti dati come esempio:

Nei dati sopra riportati, hai il tempo e l'accelerazione di una bicicletta. Dobbiamo prevederne l'accelerazione in base al tempo. Lo faremo procedendo come segue:

1 libreria (rparte)

Quindi carica i dati:

1dati (bici)

Ora creeremo un grafico a dispersione:

1plot(accel~times,data=bike)

Una volta, l'abbiamo fatto e creeremo l'albero:

1mct <- rpart(accel ~ volte, data=bici)

Il nostro ultimo passaggio è tracciare il grafico:

1 appezzamento (mct)

Leggi: Come creare un albero decisionale perfetto?

Pensieri finali

Ora abbiamo un modello perfettamente funzionante dell'albero delle decisioni in R. Puoi trovare tutorial più simili sul nostro blog.

Se sei interessato a saperne di più sugli alberi decisionali, sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi , status di Alumni IIIT-B, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Qual è la caratteristica più significativa in un algoritmo dell'albero decisionale?

Gli algoritmi dell'albero decisionale sono uno strumento prezioso per la determinazione e l'analisi del rischio e sono spesso espressi come un grafico o un elenco di regole. La semplicità d'uso degli algoritmi dell'albero decisionale è una delle sue caratteristiche più essenziali. Sono facilmente comprensibili e rilevanti poiché sono visivi. Anche se gli utenti non hanno familiarità con la costruzione di algoritmi dell'albero decisionale, possono applicarla con successo. Gli algoritmi dell'albero decisionale sono più comunemente impiegati per anticipare eventi futuri basati su precedenti esperienze e aiutano nel processo decisionale razionale. Un altro campo significativo degli algoritmi dell'albero decisionale è il data mining, in cui gli alberi decisionali vengono utilizzati come strumento di classificazione e modellazione, come discusso più avanti.

Quanto è importante un algoritmo dell'albero decisionale?

Un algoritmo dell'albero decisionale ha l'importante vantaggio di forzare l'analisi di tutti i possibili risultati di una decisione e di tracciare ogni percorso verso una conclusione. Genera uno studio dettagliato delle implicazioni lungo ogni ramo e indica i nodi decisionali che richiedono ulteriori indagini. Inoltre, a ogni difficoltà, percorso decisionale e risultato viene assegnato un valore unico dagli algoritmi dell'albero decisionale. Questo metodo evidenzia le vie decisionali importanti, riduce l'incertezza, elimina l'ambiguità e chiarisce le implicazioni finanziarie di linee d'azione alternative. Quando le informazioni fattuali non sono disponibili, gli utenti possono utilizzare algoritmi dell'albero decisionale per mettere in prospettiva le opzioni tra loro per semplici confronti utilizzando le probabilità per le circostanze.

L'algoritmo dell'albero decisionale si basa su quale tecnica?

L'algoritmo dell'albero decisionale si basa sulla tecnica dell'albero decisionale, che può essere utilizzata per problemi di classificazione e regressione. Il nome implica l'utilizzo di una struttura ad albero simile a un diagramma di flusso per visualizzare le previsioni risultanti da una successione di divisioni basate su funzionalità. Inizia con un nodo radice e si conclude con una decisione foglia. Un albero decisionale è composto da tre tipi di nodi, vale a dire, i quadrati che rappresentano comunemente i nodi decisionali, i nodi casuali che sono solitamente rappresentati in cerchi e i triangoli che simboleggiano i nodi finali.