Classificazione dell'albero decisionale: tutto ciò che devi sapere

Pubblicato: 2020-05-29

Sommario

introduzione

Molte analogie potrebbero essere guidate dalla natura nelle nostre vite reali; gli alberi sono uno dei più influenti di loro. Gli alberi hanno avuto il loro impatto su un'area considerevole dell'apprendimento automatico. Coprono sia la classificazione essenziale che la regressione. Quando si analizza qualsiasi decisione, è possibile utilizzare un classificatore dell'albero decisionale per rappresentare il processo decisionale.

Quindi, in pratica, un albero decisionale fa parte dell'apprendimento automatico supervisionato in cui l'elaborazione dei dati avviene suddividendo i dati continuamente, tenendo sempre presente un parametro particolare.

Di cosa sono fatti gli alberi decisionali?

La risposta alla domanda è semplice. Gli alberi decisionali sono costituiti da tre cose essenziali, l'analogia con ciascuna di esse potrebbe essere disegnata da un albero della vita reale. Tutti e tre sono elencati di seguito:

  1. Nodi: questo è il luogo in cui avviene il test per il valore. In un nodo, il valore di un attributo specifico viene passato e viene verificato e testato rispetto ai valori per prendere una decisione.
  2. Bordi/rami: questa parte corrisponde al risultato di qualsiasi risultato del test. I bordi/rami sono anche responsabili del collegamento di due diversi nodi o foglie.
  3. Nodi foglia: questi sono i nodi che si trovano tipicamente ai terminali. I nodi foglia sono responsabili della previsione del risultato.

Classificazione dell'albero decisionale

Gli alberi decisionali possono essere classificati in due categorie, vale a dire, alberi di classificazione e alberi di regressione.

1. Classificazione alberi

Gli alberi di classificazione sono quei tipi di alberi decisionali basati sulla risposta alle domande "Sì" o "No" e sull'utilizzo di queste informazioni per prendere una decisione. Quindi, un albero, che determina se una persona è idonea o meno, ponendo una serie di domande correlate e utilizzando le risposte per arrivare a una soluzione praticabile, è un tipo di albero di classificazione.

Questi tipi di alberi sono generalmente costruiti utilizzando un processo chiamato partizionamento ricorsivo binario. Il metodo del partizionamento ricorsivo binario prevede la suddivisione dei dati in moduli o partizioni separati, quindi queste partizioni vengono ulteriormente unite in ogni ramo del classificatore dell'albero decisionale .

2. Alberi di regressione

Ora, un tipo di regressione dell'albero decisionale è diverso dal tipo di classificazione dell'albero decisionale per un aspetto. I dati che sono stati inseriti nei due alberi sono molto diversi. Gli alberi di classificazione gestiscono i dati, che sono discreti, mentre gli alberi decisionali di regressione gestiscono il tipo di dati continuo. Un buon esempio di alberi di regressione potrebbe essere il prezzo della casa o la durata della permanenza di un paziente in ospedale.

Ulteriori informazioni: Regressione lineare in Machine Learning

Come vengono creati gli alberi decisionali?

Gli alberi decisionali vengono creati prendendo l'insieme di dati su cui il modello deve essere addestrato (gli alberi decisionali fanno parte dell'apprendimento automatico supervisionato). Questo set di dati di addestramento deve essere continuamente unito in sottoinsiemi di dati più piccoli. Questo processo è completato dalla creazione di un albero di associazione che viene creato in modo incrementale fianco a fianco nel processo di scomposizione dei dati. Dopo che la macchina ha terminato l'apprendimento, si conclude la creazione di un albero decisionale basato sul set di dati di addestramento fornito e questo albero viene quindi restituito all'utente.

L'idea centrale alla base dell'utilizzo di un albero decisionale è quella di separare i dati in due regioni primarie, la regione con la popolazione densa (cluster) o l'area, che sono regioni vuote (o sparse).

La classificazione dell'albero decisionale funziona su un principio elementare del divario. Conquista dove qualsiasi nuovo esempio che è stato inserito nell'albero, dopo aver superato una serie di test, sarebbe organizzato e dotato di un'etichetta di classe. L'algoritmo del divide et impera è discusso in dettaglio di seguito:

Dividere e conquistare

È evidente che il classificatore dell'albero decisionale è basato e costruito utilizzando un'euristica nota come partizionamento ricorsivo, noto anche come algoritmo divide et impera. Suddivide i dati in insiemi più piccoli e continua a farlo. Fino a quando non ha determinato che i dati all'interno di ciascun sottoinsieme sono omogenei, o se l'utente non ha definito un altro criterio di arresto, ciò porrebbe fine a questo algoritmo.

Come funziona il classificatore dell'albero decisionale ?

  1. L'algoritmo divide et impera viene utilizzato per creare un classificatore dell'albero delle decisioni . Utilizzando l'algoritmo, iniziamo sempre dalla radice dell'albero e dividiamo anche il set di dati per ridurre l'incertezza nella decisione finale.
  2. Si tratta di un processo iterativo. Quindi, ripetiamo questo processo in ogni nodo. Questo processo si ripete fino al momento in cui non abbiamo i nodi della purezza che desideriamo.
  3. In genere, per evitare il sovradattamento, fissiamo un limite di purezza da raggiungere. Ciò significa che il risultato finale potrebbe non essere puro al 100%.

Nozioni di base sull'algoritmo divide et impera:

  1. Per prima cosa viene la scelta o la selezione di un test per il nodo radice. Quindi inizia il processo di creazione dei rami. Le filiali sono progettate tenendo conto di ogni possibile esito della sperimentazione che è stata definita.
  2. Poi viene la suddivisione delle istanze di dati in sottoinsiemi più piccoli. Ogni ramo avrebbe la propria giunzione, che è collegata al nodo.
  3. Questo processo deve quindi essere ripetuto per ogni ramo utilizzando solo le istanze che arrivano al ramo in questione.
  4. Questo processo ricorsivo dovrebbe essere interrotto se tutte le istanze appartengono alla stessa classe.

Vantaggi dell'utilizzo della classificazione dell'albero decisionale

  1. Non richiede un'enorme quantità di denaro per costruire.
  2. È un rapido processo di classificazione di record nuovi o sconosciuti.
  3. Può essere interpretato molto facilmente, soprattutto se l'albero è di piccole dimensioni.
  4. L'accuratezza della previsione utilizzando il classificatore dell'albero decisionale è paragonabile ad altri metodi di previsione o classificazione.
  5. Ha anche la capacità di escludere le funzionalità che non sono importanti. Questo processo di eliminazione delle funzionalità irrilevanti viene eseguito automaticamente.

Leggi: Come creare un albero decisionale perfetto?

Svantaggi dell'utilizzo del classificatore dell'albero decisionale

  1. In questo caso, l'overfitting del set di dati è molto semplice.
  2. Il limite della decisione ha una restrizione. Può essere solo parallelo agli assi, che contiene gli attributi.
  3. I modelli basati sugli alberi decisionali hanno spesso divisioni parziali che hanno un numero enorme di livelli.
  4. Eventuali piccole modifiche apportate al set di dati possono avere un impatto significativo sulla logica che governa la decisione.
  5. Gli alberi lager sono difficili da capire perché a volte potrebbero sembrare molto controintuitivi.

Leggi anche: Alberi decisionali nell'apprendimento automatico

Impara i corsi di scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Conclusione

Gli alberi decisionali sono utili mentre ci troviamo di fronte a problemi che non possono essere gestiti con soluzioni lineari. Dalle osservazioni, è stato notato che i modelli basati su alberi possono facilmente mappare la non linearità degli input ed eliminare efficacemente il problema in questione. Metodi sofisticati come la generazione casuale di foreste e l'aumento del gradiente sono tutti basati sul classificatore dell'albero decisionale stesso.

Gli alberi decisionali sono uno strumento potente che può essere utilizzato in molte aree della vita reale come l'ingegneria biomedica, l'astronomia, il controllo dei sistemi, la medicina, la fisica, ecc. Questo rende effettivamente la classificazione degli alberi decisionali uno strumento critico e indispensabile dell'apprendimento automatico.

Gli alberi decisionali sono inclini a sovradimensionarsi?

Gli alberi decisionali frammentano i dati complessi in forme più semplici. Una classificazione Decision Tree tenta di dividere i dati finché non possono essere ulteriormente divisi. Viene quindi creato un grafico chiaro di tutti i possibili contenuti, che aiuta in ulteriori analisi. Sebbene un vasto albero con numerose giunzioni ci dia un percorso rettilineo, può anche generare un problema durante il test dei dati. Questa giunzione eccessiva porta a un adattamento eccessivo, in cui molte divisioni fanno crescere enormemente l'albero. In questi casi, la capacità predittiva dell'albero decisionale è compromessa e quindi diventa insana. La potatura è una tecnica utilizzata per affrontare l'overfitting, in cui vengono rimossi i sottoinsiemi in eccesso.

Gli alberi decisionali hanno bisogno di normalizzazione?

Gli alberi decisionali sono l'algoritmo di apprendimento automatico più comune utilizzato per la classificazione e la regressione dei dati. Questo meccanismo supervisionato unisce i dati per sottoinsieme in vari gruppi fino a raggiungere il nodo foglia, dove non può essere ulteriormente suddiviso. Poiché questi dati verranno suddivisi in categorie in base agli attributi forniti, verranno suddivisi equamente. Trasmette che sia i dati che sono passati attraverso la normalizzazione che i dati che non lo hanno fatto avrebbero lo stesso numero di divisioni. Pertanto, la normalizzazione non è un prerequisito per i modelli ad albero basati sulle decisioni.

Come unire gli alberi decisionali?

Gli alberi decisionali sono un meccanismo affidabile per classificare i dati e prevedere le soluzioni. Lo splicing in un albero decisionale richiede precisione; un piccolo errore può compromettere l'integrità dell'albero decisionale. Lo splicing in un albero decisionale avviene utilizzando il partizionamento ricorsivo. La suddivisione dei dati inizia con la creazione di sottoinsiemi di dati tramite gli attributi ad essi assegnati. I dati vengono suddivisi in modo ricorsivo in ripetizione fino a quando i dati giuntati su ciascun nodo non vengono considerati obsoleti nella previsione delle soluzioni. Anche il sottoinsieme può essere simile al valore della variabile target. Lo splicing deve essere metodico e ripetitivo per una buona precisione.