I 9 migliori algoritmi di data science che ogni data scientist dovrebbe conoscere

Pubblicato: 2020-02-13

Un algoritmo è un insieme di regole o istruzioni seguite da un programma per computer per implementare calcoli o eseguire altre funzioni di risoluzione dei problemi. Poiché la scienza dei dati consiste nell'estrazione di informazioni significative per i set di dati, sono disponibili una miriade di algoritmi per risolvere lo scopo.

Gli algoritmi di scienza dei dati possono aiutare a classificare, prevedere, analizzare, rilevare le impostazioni predefinite, ecc. Gli algoritmi costituiscono anche la base di librerie di apprendimento automatico come scikit-learn. Quindi, aiuta ad avere una solida comprensione di ciò che sta accadendo sotto la superficie.

Impara i programmi di scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Leggi: Algoritmi di apprendimento automatico per la scienza dei dati

Sommario

Algoritmi di data science comunemente usati

1. Classificazione

Viene utilizzato per variabili target discrete e l'output è sotto forma di categorie. Il raggruppamento, l'associazione e l'albero decisionale sono il modo in cui i dati di input possono essere elaborati per prevedere un risultato. Ad esempio, un nuovo paziente può essere etichettato come "malato" o "sano" utilizzando un modello di classificazione.

2. Regressione

La regressione viene utilizzata per prevedere una variabile target e per misurare la relazione tra variabili target, che sono di natura continua. È un metodo semplice per tracciare "la linea di miglior adattamento" su un grafico di una singola caratteristica o di un insieme di caratteristiche, ad esempio x, e la variabile target, y.

La regressione può essere utilizzata per stimare la quantità di precipitazioni sulla base della precedente correlazione tra i diversi parametri atmosferici. Un altro esempio è la previsione del prezzo di una casa in base a caratteristiche come area, località, età, ecc.

Cerchiamo ora di comprendere uno degli elementi costitutivi più fondamentali degli algoritmi della scienza dei dati : la regressione lineare.

3. Regressione lineare

L'equazione lineare per un insieme di dati con N caratteristiche può essere data come: y = b 0 + b 1 .x 1 + b 2 .x 2 + b 3 .x 3 + …..b n .x n , dove b 0 è qualche costante.

Per i dati univariati (y = b 0 + b 1 .x), l'obiettivo è ridurre al minimo la perdita o l'errore al valore più piccolo possibile per la variabile restituita. Questo è lo scopo principale di una funzione di costo. Se assumi b 0 come zero e inserisci valori diversi per b 1 , scoprirai che la funzione del costo di regressione lineare ha una forma convessa.

Gli strumenti matematici aiutano a ottimizzare i due parametri, b 0 e b 1 , e riducono al minimo la funzione di costo. Uno di questi è discusso come segue.

4. Il metodo dei minimi quadrati

Nel caso precedente, b 1 è il peso di x o la pendenza della linea e b 0 è l'intercetta. Inoltre, tutti i valori previsti di y giacciono sulla linea. E il metodo dei minimi quadrati cerca di ridurre al minimo la distanza tra ogni punto, diciamo (x i , y i ), i valori previsti.

Per calcolare il valore di b 0 , ricavare la media di tutti i valori di x i e moltiplicarli per b 1 . Quindi, sottrai il prodotto dalla media di tutti y i . Inoltre, puoi eseguire un codice in Python per il valore di b 1 . Questi valori sarebbero pronti per essere inseriti nella funzione di costo e il valore di ritorno sarà ridotto al minimo per perdite ed errori. Ad esempio, per b 0 = -34,671 e b 1 = 9,102, la funzione di costo restituirà 21,801.

5. Discesa a gradiente

Quando ci sono più caratteristiche, come nel caso della regressione multipla, il calcolo complesso viene gestito da metodi come la discesa del gradiente. È un algoritmo di ottimizzazione iterativo applicato per determinare il minimo locale di una funzione. Il processo inizia prendendo un valore iniziale per b 0 e b 1 e proseguendo fino a quando la pendenza della funzione di costo è zero.

Supponiamo di dover andare in un lago che si trova nel punto più basso di una montagna. Se non hai visibilità e ti trovi in cima alla montagna, inizieresti da un punto in cui la terra tende a scendere. Dopo aver fatto il primo gradino e seguendo il sentiero di discesa, è probabile che si giungerà al lago.

Mentre la funzione di costo è uno strumento che ci consente di valutare i parametri, l'algoritmo di discesa del gradiente può aiutare nell'aggiornamento e nell'addestramento dei parametri del modello. Ora, esaminiamo alcuni altri algoritmi per la scienza dei dati.

6. Regressione logistica

Mentre le previsioni della regressione lineare sono valori continui, la regressione logistica fornisce previsioni discrete o binarie. In altre parole, i risultati nell'output appartengono a due classi dopo l'applicazione di una funzione di trasformazione. Ad esempio, la regressione logistica può essere utilizzata per prevedere se uno studente ha superato o meno o se pioverà o meno. Maggiori informazioni sulla regressione logistica.

7. Cluster di K-mezzi

È un algoritmo iterativo che assegna punti dati simili in cluster. Per fare lo stesso, calcola i centroidi di k cluster e raggruppa i dati in base alla distanza minima dal centroide. Ulteriori informazioni sull'analisi dei cluster nel data mining.

8. K-Vicino più vicino (KNN)

L'algoritmo KNN esamina l'intero set di dati per trovare le istanze k più vicine quando è richiesto un risultato per una nuova istanza di dati. L'utente specifica il valore di k da utilizzare.

9. Analisi dei componenti principali (PCA)

L'algoritmo PCA riduce il numero di variabili catturando la massima varianza nei dati in un nuovo sistema di "componenti principali". Ciò semplifica l'esplorazione e la visualizzazione dei dati.

Avvolgendo

La conoscenza degli algoritmi di data science spiegati sopra può rivelarsi immensamente utile se hai appena iniziato nel campo. Comprendere il nocciolo della questione può anche tornare utile durante l'esecuzione delle funzioni quotidiane di scienza dei dati.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Quali sono alcuni dei punti che dovremmo considerare prima di scegliere un algoritmo di data science per ML?

Verificare la linearità; il metodo più semplice per farlo è adattare una linea retta o eseguire una regressione logistica o SVM e cercare errori residui. Un errore maggiore indica che i dati non sono lineari e che sono necessarie tecniche sofisticate per adattarli.

Gli algoritmi di regressione Naive Bayes, lineare e logistica sono semplici da costruire ed eseguire. SVM, che richiede la regolazione dei parametri, reti neurali con un tempo di convergenza veloce e foreste casuali richiedono tutti una quantità di tempo significativa per addestrare i dati. Di conseguenza, fai la tua scelta in base al tuo ritmo preferito.

Per generare previsioni affidabili, in genere si consiglia di raccogliere una grande quantità di dati. Tuttavia, la disponibilità dei dati è spesso un problema. Se i dati di addestramento sono limitati o il set di dati contiene meno osservazioni e un numero maggiore di caratteristiche, come dati genetici o testuali, utilizzare algoritmi con alta distorsione/bassa varianza, come la regressione lineare o SVM lineare.

Cosa sono gli algoritmi flessibili e restrittivi?

Poiché creano una varietà limitata di moduli di funzioni di mappatura, si dice che alcuni algoritmi siano restrittivi. La regressione lineare, ad esempio, è una tecnica limitata poiché può creare solo funzioni lineari come le linee.

Si dice che alcuni algoritmi siano flessibili perché possono creare una gamma più ampia di moduli di funzioni di mappatura. KNN con k=1 è molto versatile, ad esempio, poiché considera ogni punto di dati di input durante la generazione della funzione di mappatura dell'output.

Se una funzione è in grado di prevedere un valore di risposta per una data osservazione che è vicino al vero valore di risposta, allora questo è caratterizzato dalla sua accuratezza. Una tecnica altamente interpretabile (modelli restrittivi come la regressione lineare) significa che ogni singolo predittore può essere compreso, mentre i modelli flessibili offrono una maggiore precisione a scapito di una bassa interpretabilità.

Cos'è l'algoritmo di Naive Bayes?

È un algoritmo di classificazione basato sul teorema di Bayes e sull'ipotesi di indipendenza del predittore. In parole povere, un classificatore Naive Bayes afferma che la presenza di una caratteristica in una classe non è correlata alla presenza di qualsiasi altra caratteristica. Il modello Naive Bayes è semplice da costruire ed è particolarmente utile per insiemi di dati di grandi dimensioni. Per la sua semplicità, Naive Bayes è noto per sconfiggere anche i più potenti algoritmi di classificazione.