5 tipi di algoritmi di classificazione nell'apprendimento automatico [2022]

Pubblicato: 2021-01-02

Sommario

introduzione

L'apprendimento automatico è uno degli argomenti più importanti dell'Intelligenza Artificiale. È ulteriormente suddiviso in apprendimento supervisionato e non supervisionato che può essere correlato all'analisi dei dati etichettati e non etichettati o alla previsione dei dati. In Supervised Learning abbiamo altri due tipi di problemi aziendali chiamati Regressione e Classificazione.

La classificazione è un algoritmo di apprendimento automatico in cui otteniamo i dati etichettati come input e dobbiamo prevedere l'output in una classe. Se ci sono due classi, allora si chiama Classificazione Binaria. Se sono presenti più di due classi, si parla di classificazione multiclasse. Negli scenari del mondo reale tendiamo a vedere entrambi i tipi di classificazione.

In questo articolo analizzeremo alcuni tipi di algoritmi di classificazione insieme ai loro pro e contro. Ci sono così tanti algoritmi di classificazione disponibili, ma concentriamoci sui 5 algoritmi seguenti:

Regressione logistica
K Vicino più vicino
Alberi decisionali
Foresta casuale
Supporta le macchine vettoriali

1. Regressione logistica

Anche se il nome suggerisce Regressione, è un algoritmo di classificazione. La regressione logistica è un metodo statistico per classificare i dati in cui sono presenti una o più variabili o caratteristiche indipendenti che determinano un risultato misurato con una variabile (TARGET) che ha due o più classi. Il suo obiettivo principale è trovare il modello più adatto per descrivere la relazione tra la variabile Target e le variabili indipendenti.

Professionisti

1) Facile da implementare, interpretare ed efficiente da addestrare in quanto non fa supposizioni ed è veloce nelle classificazioni.

2) Può essere utilizzato per la classificazione multiclasse.

3) È meno incline all'overfitting ma si adatta troppo in set di dati ad alta dimensione.

contro

1) Overfit quando le osservazioni sono inferiori alle caratteristiche.

2) Funziona solo con funzioni discrete.

3) I problemi non lineari non possono essere risolti.

4) Difficile apprendere schemi complessi e di solito le reti neurali li superano.

2. K Vicino più vicino

L'algoritmo K-nearest neighbors (KNN) utilizza la tecnica "feature similarity" o "neest neighbors" per prevedere il cluster in cui cade un nuovo punto dati. Di seguito sono riportati i pochi passaggi in base ai quali possiamo comprendere meglio il funzionamento di questo algoritmo

Passaggio 1 : per implementare qualsiasi algoritmo in Machine learning, abbiamo bisogno di un set di dati pulito pronto per la modellazione. Supponiamo di avere già un set di dati pulito che è stato suddiviso in set di dati di addestramento e test.

Passaggio 2 − Poiché abbiamo già i set di dati pronti, dobbiamo scegliere il valore di K (intero) che ci dice quanti punti dati più vicini dobbiamo prendere in considerazione per implementare l'algoritmo. Possiamo imparare a determinare il valore k nelle fasi successive dell'articolo.

Passaggio 3 : questo passaggio è iterativo e deve essere applicato per ciascun punto dati nel set di dati

Calcola la distanza tra i dati del test e ogni riga di dati di allenamento utilizzando una qualsiasi delle metriche di distanza
Distanza euclidea
Distanza di Manhattan
Distanza Minkowski
Distanza di Hamming.

Molti data scientist tendono a utilizzare la distanza euclidea, ma possiamo conoscere il significato di ciascuna nella fase successiva di questo articolo.

Dobbiamo ordinare i dati in base alla metrica della distanza che abbiamo utilizzato nel passaggio precedente.

Scegli le prime K righe nei dati ordinati trasformati.

Quindi assegnerà una classe al punto di test in base alla classe più frequente di queste righe.

Passaggio 4 : fine

Professionisti

Facile da usare, capire e interpretare.
Tempo di calcolo rapido.
Nessuna ipotesi sui dati.
Elevata precisione delle previsioni.
Versatile: può essere utilizzato sia per problemi di classificazione che di regressione.
Può essere utilizzato anche per problemi multiclasse.
Abbiamo solo un parametro Hyper da modificare nella fase di ottimizzazione di Hyperparameter.

contro

Computazionalmente costoso e richiede memoria elevata poiché l'algoritmo memorizza tutti i dati di addestramento.
L'algoritmo diventa più lento all'aumentare delle variabili.
È molto sensibile a caratteristiche irrilevanti.
Maledizione della dimensionalità.
Scegliere il valore ottimale di K.
Il set di dati di classe sbilanciato causerà problemi.
Anche i valori mancanti nei dati causano problemi.

Leggi: Idee per progetti di apprendimento automatico

3. Alberi decisionali

Gli alberi decisionali possono essere utilizzati sia per la classificazione che per la regressione in quanto possono gestire dati sia numerici che categoriali. Scompone il set di dati in sottoinsiemi o nodi sempre più piccoli man mano che l'albero viene sviluppato. L'albero decisionale ha un output con nodi decisione e foglia in cui un nodo decisionale ha due o più rami mentre un nodo foglia rappresenta una decisione. Il nodo più in alto che corrisponde al miglior predittore è chiamato nodo radice.

Professionisti

Semplice da capire
Visualizzazione facile
Meno dati Interpretazione
Gestisce dati sia numerici che categoriali.

contro

A volte non generalizzo bene
Instabile alle modifiche nei dati di input

4. Foreste casuali

Le foreste casuali sono un metodo di apprendimento d'insieme che può essere utilizzato per la classificazione e la regressione. Funziona costruendo diversi alberi decisionali e genera i risultati prendendo la media di tutti gli alberi decisionali in Regressione o votazione a maggioranza in Problemi di classificazione. Puoi sapere dal nome stesso che un gruppo di alberi è chiamato Foresta.

Professionisti

Può gestire grandi set di dati.
Riporterà l'importanza delle variabili.
Può gestire i valori mancanti.

contro

È un algoritmo di scatola nera.
Previsione lenta in tempo reale e algoritmi complessi.

5. Supporta le macchine vettoriali

La macchina vettore di supporto è una rappresentazione del set di dati come punti nello spazio separati in categorie da uno spazio o una linea chiara il più lontano possibile. I nuovi punti dati sono ora mappati nello stesso spazio e classificati in modo da appartenere a una categoria in base al lato della linea o alla separazione in cui cadono.

Professionisti

Funziona meglio negli spazi ad alta dimensione.
Utilizza un sottoinsieme di punti dati di addestramento nella funzione decisionale che lo rende un algoritmo efficiente in termini di memoria.

contro

Non fornirà stime di probabilità.
Può calcolare le stime di probabilità utilizzando la convalida incrociata ma richiede molto tempo.

Leggi anche: Carriera nell'apprendimento automatico

Conclusione

In questo articolo abbiamo discusso dei 5 algoritmi di classificazione, delle loro brevi definizioni, pro e contro. Questi sono solo alcuni degli algoritmi che abbiamo trattato, ma ci sono algoritmi più preziosi come Naive Bayes, Neural Networks, Ordered Logistic Regression. Non si può dire quale algoritmo funzioni bene per quale problema, quindi la migliore pratica è provarne alcuni e selezionare il modello finale in base alle metriche di valutazione.

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Qual è lo scopo principale dietro l'utilizzo della regressione logistica?

La regressione logistica viene utilizzata principalmente nelle probabilità statistiche. Utilizza un'equazione di regressione logistica per comprendere la relazione tra le variabili dipendenti e le variabili indipendenti presenti nei dati forniti. Questo viene fatto stimando le probabilità dei singoli eventi. Un modello di regressione logistica è molto simile al modello di regressione lineare, tuttavia, il loro uso è preferito quando la variabile dipendente fornita nei dati è dicotomica.

In che modo SVM è diverso dalla regressione logistica?

Sebbene SVM fornisca una maggiore precisione rispetto ai modelli di regressione logistica, è complesso da usare e, quindi, non è facile da usare. In caso di grandi quantità di dati, l'uso di SVM non è preferito. Mentre SVM viene utilizzato per risolvere sia i problemi di regressione che di classificazione, la regressione logistica risolve bene solo i problemi di classificazione. A differenza di SVM, l'overfitting è un evento comune quando si utilizza la regressione logistica. Inoltre, la regressione logistica è più vulnerabile ai valori anomali rispetto alle macchine vettoriali di supporto.

Un albero di regressione è un tipo di albero decisionale?

Sì, gli alberi di regressione sono fondamentalmente alberi decisionali utilizzati per le attività di regressione. I modelli di regressione vengono utilizzati per comprendere la relazione tra le variabili dipendenti e le variabili indipendenti che sono effettivamente emerse dalla suddivisione dell'insieme di dati fornito iniziale. Gli alberi di regressione possono essere utilizzati solo quando l'albero decisionale è costituito da una variabile target continua.