Introduzione all'algoritmo di classificazione: concetti e vari tipi
Pubblicato: 2020-04-13Gli algoritmi di classificazione ti aiutano a dividere i tuoi dati in diverse classi. Proprio come quando vuoi ordinare le cose durante l'imballaggio, un algoritmo di classificazione ti aiuta a classificare i dati. In questo articolo, daremo un'occhiata a cosa sono gli algoritmi di classificazione, i tipi di algoritmi di classificazione, alcuni concetti di base di questo argomento e come funzionano.
Sommario
Cosa significa Classificazione?
Per prevedere la classe target, quando utilizziamo il nostro set di dati di addestramento per ottenere le condizioni al contorno, chiamiamo questa classificazione del processo. Ci sono molti tipi di classi target che puoi raggiungere. Ad esempio, supponi di voler prevedere se i tuoi clienti acquisterebbero o meno un determinato prodotto in base ai dati del cliente che hai. In questo caso, le classi target sarebbero "Sì" o "No".
D'altra parte, potresti voler classificare le verdure in base al loro peso, dimensione o colore. In questo scenario, le classi target disponibili potrebbero essere Spinaci, Pomodoro, Cipolla, Patata e Cavolo. Potresti anche eseguire la classificazione di genere, dove le classi target sarebbero Donne e Uomini.
Capiamo un po' come funziona un algoritmo di classificazione considerando il terzo esempio. Possiamo mantenere la lunghezza dei capelli come parametro di caratteristica, anche se è solo per il bene di questo esempio. Possiamo addestrare il nostro modello utilizzando un algoritmo di classificazione e lasciare che determini le condizioni al contorno per eseguire la differenziazione tra i generi femminili e maschili attraverso il parametro caratteristico dato, cioè la lunghezza dei capelli.
Concetti di base della classificazione
Prima di iniziare a discutere ulteriormente degli algoritmi di classificazione, è necessario avere familiarità con diverse definizioni. In questo modo, potresti evitare qualsiasi confusione in seguito:
Caratteristiche
È una proprietà misurabile individuale di un particolare fenomeno che osserviamo alla volta.

Classificatori
Un classificatore è un algoritmo che mappa i dati di input di un modello in una particolare categoria.
Modelli di classificazione
I modelli di classificazione devono concludere i valori di input che diamo al modello durante l'addestramento. Questi modelli prevedono le categorie (etichette di classe) per i nuovi dati che forniamo loro.
Classificazione multi-etichetta
La classificazione multi-etichetta è quando mappiamo ogni campione a un insieme di etichette target di più classi. Ad esempio, uno zaino scolastico potrebbe contenere libri, portapranzo e penne allo stesso tempo.
Classificazione multiclasse
La classificazione multiclasse è quando assegniamo ogni campione a una sola etichetta target. Avviene quando abbiamo più di due classi. Ad esempio, un'auto potrebbe essere in movimento o ferma, ma non entrambe contemporaneamente.
Classificazione binaria
La classificazione binaria è quando abbiamo solo due classi possibili. Ad esempio, il sesso di una persona potrebbe essere maschio o femmina.
Tipi di algoritmi di classificazione
Ecco tutti i tipi di algoritmi di classificazione:
- Stima del kernel
(K-vicino più vicino)

- Classificatori lineari
(Regressione logistica, discriminante lineare di Fisher e classificatore Naive Bayes)
- Classificatori quadratici
- Reti neurali
- Apprendimento della quantizzazione vettoriale
- Supporta le macchine vettoriali
(I minimi quadrati supportano le macchine vettoriali)
Discutiamo ora alcuni dei tipi essenziali di algoritmi di classificazione:
Ulteriori informazioni: Tipi di algoritmi di machine learning con esempi di casi d'uso
K-vicino più vicino
K-nearest neighbor, noto anche come KNN, è un popolare algoritmo per risolvere problemi di regressione e classificazione. Classifica i nuovi casi in base ai voti dei k-vicini. Determiniamo k-vicini più vicini usando le funzioni di distanza. La funzione di distanza più popolare è euclidea, ma ci sono anche altre opzioni, come Manhattan e Hamming.
Per capire KNN, puoi dare un'occhiata a un esempio di vita reale. Supponi di voler fare amicizia con una persona di cui non hai molte informazioni. Per conoscerli meglio, dovresti prima parlare con i loro amici e colleghi per farti un'idea di come sono. Ecco come funziona l'algoritmo KNN.
Durante l'utilizzo dell'algoritmo k-nearest neighbor, assicurati di normalizzare le variabili poiché le variabili di intervallo più elevato possono sviluppare una distorsione. Inoltre, gli algoritmi KNN sono piuttosto costosi dal punto di vista computazionale.
Alberi decisionali
Gli alberi decisionali ti aiutano a prevedere i possibili risultati in base a una serie di scelte. È un algoritmo di apprendimento supervisionato e utilizza varie funzionalità con variabili dipendenti continue e categoriali.
Ad esempio, supponi di voler uscire per comprare frutta per te stesso, ma noti che il tempo è nuvoloso. Ora, hai due scelte, potresti andare, o forse no. Se vai, potrebbe piovere e poi dovresti tornare a mani vuote. Se invece non piove, puoi comprare la frutta che ti serve. Era un semplice esempio contenente più variabili, ma hai un'idea.
Leggi anche: Albero decisionale in R
Regressione logistica
La regressione logistica non è un algoritmo di regressione. La regressione logistica stima i valori discreti in base a un particolare insieme di variabili indipendenti. In altre parole, prevede le possibilità di un evento utilizzando una funzione logit. Ecco perché ha anche il nome di regressione logit.
Poiché la regressione logistica è stata progettata per la classificazione, è una scelta popolare tra gli esperti. Inoltre, è l'algoritmo più adatto per comprendere l'influenza di varie variabili indipendenti su un possibile risultato. Il suo svantaggio è che funziona solo con variabili binarie prevedibili e presume che i suoi dati non contengano valori mancanti.
Supporta la macchina vettoriale
In una macchina vettoriale di supporto, il valore di ogni caratteristica è il valore di una coordinata specifica e ogni elemento è un punto nello spazio n-dimensionale. Qui, 'n' sta per il numero di funzioni che hai.

Supponiamo che tu abbia due caratteristiche, la lunghezza dei capelli e l'altezza. In questo caso, tracciamo prima queste variabili in uno spazio bidimensionale e ogni punto ha due coordinate. Chiamiamo queste coordinate Vettori di supporto; ecco perché questo algoritmo è chiamato Support Vector Machine.
Dopo aver tracciato questi punti, troveremo una linea che divide i dati in due gruppi distinti. Questa riga è il classificatore e creeremmo classi in base al lato in cui si trovano i nostri dati di test nel risultato finale.
Pensieri conclusivi
In questo blog, abbiamo cercato di spiegare gli algoritmi di classificazione nel modo più completo possibile. Se vuoi saperne di più su questo argomento, ti suggeriamo di visitare il nostro blog, pieno di preziosi articoli di questo tipo.
Puoi anche visitare il nostro catalogo di corsi di Machine learning per saperne di più su questo argomento. Siamo sicuri che troverai qualcosa di utile.
Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.