Pro e contro della regressione dell'albero decisionale nell'apprendimento automatico

Pubblicato: 2020-12-24

Uno degli algoritmi di apprendimento automatico più popolari, la regressione dell'albero decisionale, è utilizzato sia dai concorrenti che dai professionisti della scienza dei dati. Si tratta di modelli predittivi che calcolano un valore target basato su un insieme di regole binarie.

Viene utilizzato per costruire modelli sia di regressione che di classificazione sotto forma di struttura ad albero. I set di dati sono suddivisi in sottoinsiemi più piccoli in un albero decisionale, mentre un albero decisionale associato viene costruito in modo incrementale simultaneamente.

Un albero decisionale viene utilizzato per ottenere una stima basata sull'esecuzione di una serie di domande sul set di dati. Facendo queste domande vero/falso, il modello è in grado di restringere i possibili valori e fare una previsione. L'ordine e il contenuto della domanda sono decisi dal modello stesso.

Sommario

Quali sono i termini dell'albero decisionale?

Un albero decisionale ha rami, nodi, foglie, ecc. Un nodo radice è un nodo iniziale che rappresenta l'intero campione o popolazione e può essere ulteriormente suddiviso in altri nodi o insiemi omogenei. Un nodo decisionale è costituito da due o più nodi che rappresentano valori separati dell'attributo testato.

Un nodo foglia/terminale non si divide in ulteriori nodi e rappresenta una decisione. Un ramo o un sottoalbero è una sottosezione di un intero albero. La divisione è il processo di divisione di un nodo in due o più sottonodi. L'opposto della divisione è chiamato potatura, cioè la rimozione dei sottonodi di un nodo decisionale. Un nodo padre è un nodo che viene diviso in sottonodi e il sottonodo è il nodo figlio.

Correlati: Guida all'algoritmo dell'albero decisionale

Come funziona?

L'algoritmo dell'albero decisionale utilizza un punto dati e percorre l'intero albero ponendo domande vero/falso. Partendo dal nodo radice, vengono poste domande e vengono creati rami separati per ogni risposta, e questo continua fino al raggiungimento del nodo foglia. Il partizionamento ricorsivo viene utilizzato per costruire l'albero.

Un albero decisionale è un modello di apprendimento automatico supervisionato e, pertanto, impara a mappare i dati sugli output nella fase di addestramento della creazione del modello. Questo viene fatto adattando il modello ai dati storici che devono essere rilevanti per il problema, insieme al suo vero valore che il modello dovrebbe imparare a prevedere con precisione. Questo aiuta il modello ad apprendere le relazioni tra i dati e la variabile target.

Dopo questa fase, l'albero decisionale è in grado di costruire un albero simile calcolando le domande e il loro ordine, che lo aiuteranno a fare la stima più accurata. Pertanto, la previsione dipende dai dati di addestramento inseriti nel modello.

Come viene decisa la scissione?

La decisione di dividere è diversa per la classificazione e gli alberi di regressione e l'accuratezza della previsione dell'albero dipende fortemente da essa. L'errore quadratico medio (MSE) viene solitamente utilizzato per decidere se dividere un nodo in due o più sottonodi in una regressione dell'albero decisionale . Nel caso di un albero binario, l'algoritmo seleziona un valore e divide i dati in due sottoinsiemi, calcola l'MSE per ciascun sottoinsieme e, di conseguenza, sceglie il valore MSE più piccolo.

Implementazione della regressione dell'albero decisionale

La struttura di base per implementare un algoritmo di regressione dell'albero decisionale viene fornita nei passaggi seguenti.

Importazione di librerie

Il primo passo per sviluppare qualsiasi modello di machine learning è importare tutte le librerie necessarie per lo sviluppo.

Caricamento dei dati

Dopo aver importato le librerie, il passaggio successivo consiste nel caricare il set di dati. I dati possono essere scaricati o utilizzati dalle cartelle locali dell'utente.

Suddivisione del set di dati

Una volta caricati i dati, è necessario dividerli in un set di addestramento e un set di test e creare le variabili x e y. I valori devono anche essere rimodellati per rendere i dati nel formato richiesto.

Allenare il modello

Qui il modello di regressione dell'albero dei dati viene addestrato utilizzando il set di addestramento creato nel passaggio precedente.

Prevedere i risultati

Qui i risultati del test set sono previsti utilizzando il modello addestrato sul training set.

Valutazione del modello

Le prestazioni del modello vengono verificate confrontando i valori reali e quelli previsti nella fase finale. L'accuratezza del modello può essere dedotta confrontando questi valori. Visualizzare i risultati creando un grafico dei valori aiuta anche a misurare l'accuratezza del modello.

Leggi: Come creare un albero decisionale perfetto?

Vantaggi

Il modello dell'albero decisionale può essere utilizzato sia per problemi di classificazione che di regressione ed è facile da interpretare, comprendere e visualizzare.
L'output di un albero decisionale può anche essere facilmente compreso.
Rispetto ad altri algoritmi, la preparazione dei dati durante la pre-elaborazione in un albero decisionale richiede uno sforzo minore e non richiede la normalizzazione dei dati.
L'implementazione può essere eseguita anche senza ridimensionare i dati.
Un albero decisionale è uno dei modi più rapidi per identificare le relazioni tra le variabili e la variabile più significativa.
È inoltre possibile creare nuove funzionalità per una migliore previsione delle variabili target.
Gli alberi decisionali non sono ampiamente influenzati da valori anomali o valori mancanti e possono gestire variabili sia numeriche che categoriali.
Poiché è un metodo non parametrico, non ha ipotesi sulle distribuzioni spaziali e sulla struttura del classificatore.

Svantaggi

L'overfitting è una delle difficoltà pratiche per i modelli di albero decisionale. Succede quando l'algoritmo di apprendimento continua a sviluppare ipotesi che riducono l'errore del set di addestramento ma a costo di aumentare l'errore del set di test. Ma questo problema può essere risolto eliminando e impostando vincoli sui parametri del modello.
Gli alberi decisionali non possono essere utilizzati bene con variabili numeriche continue.
Un piccolo cambiamento nei dati tende a causare una grande differenza nella struttura ad albero, che provoca instabilità.
I calcoli coinvolti possono anche diventare complessi rispetto ad altri algoritmi e l'addestramento del modello richiede più tempo.
È anche relativamente costoso in quanto la quantità di tempo impiegata e i livelli di complessità sono maggiori.

Conclusione

L' algoritmo di regressione dell'albero decisionale è stato spiegato in questo articolo descrivendo come viene costruito l'albero insieme a brevi definizioni di vari termini che lo riguardano. È inclusa anche una breve descrizione di come funziona l'albero decisionale e di come viene presa la decisione di dividere qualsiasi nodo.

Il modo in cui una regressione dell'albero decisionale di base può essere implementata è stato anche spiegato attraverso una sequenza di passaggi. Infine, sono stati forniti i vantaggi e gli svantaggi di un algoritmo ad albero decisionale.

Se sei interessato a saperne di più sugli alberi decisionali, sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi , status di Alumni IIIT-B, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Che cos'è la regressione nell'apprendimento automatico?

La regressione viene utilizzata per prevedere variabili continue. È quando dobbiamo prevedere un numero. Ad esempio, se si desidera prevedere i prezzi delle case in una città, in base a caratteristiche come le dimensioni della casa e l'area della città, verrà utilizzata la regressione. I problemi di regressione sono molto facili da risolvere usando la regressione lineare. In poche parole, la regressione è l'atto di stimare un valore di output sconosciuto sulla base di un valore di input.

Cosa sono gli alberi decisionali?

Un albero decisionale è un diagramma che mostra tutte le possibili decisioni e i possibili risultati. Gli alberi decisionali sono spesso usati per esaminare come le decisioni influenzano i risultati futuri. Ad esempio, un albero decisionale può aiutare un'azienda ad analizzare se dovrebbe acquistare magazzini aggiuntivi o costruire un nuovo centro di distribuzione. In generale, gli alberi decisionali sono utilizzati nella ricerca operativa e nella scienza della gestione. Gli alberi decisionali sono un concetto comune e popolare nel processo decisionale e nella pianificazione del programma. Possono essere utilizzati nella scelta tra corsi d'azione quando alcuni dei possibili corsi si escludono a vicenda e quando il risultato di ogni corso d'azione dipende dallo stato del mondo.

Quali sono i vantaggi e gli svantaggi degli alberi decisionali?

Il modello degli alberi decisionali può essere utilizzato per qualsiasi classe di problemi, sia per la classificazione che per la previsione numerica. Può essere esteso a qualsiasi classe di problemi. Può essere utilizzato sia per la classificazione supervisionata che non supervisionata. Può gestire una combinazione di caratteristiche numeriche e categoriali. Dà risultati stabili. Tuttavia, è difficile capire il motivo dietro la previsione. Dovrebbe essere chiaro che il modello non sta imparando la suddivisione migliore in ogni nodo dell'albero, ma sta imparando la distribuzione di probabilità della classe all'interno di ciascun nodo. Questo requisito rende il modello intensivo dal punto di vista computazionale e gli impedisce di gestire grandi quantità di dati.