Regressione nel data mining: diversi tipi di tecniche di regressione [2022]

Pubblicato: 2021-01-01

L'apprendimento supervisionato è un apprendimento in cui si addestra l'algoritmo di apprendimento automatico utilizzando dati già etichettati. Ciò significa che la risposta corretta è già nota per tutti i dati di allenamento. Dopo l'addestramento, viene fornito con un nuovo set di dati sconosciuti che l'algoritmo di apprendimento supervisionato analizza e quindi produce un risultato corretto basato sui dati di addestramento etichettati.

L'apprendimento non supervisionato è il punto in cui l'algoritmo viene addestrato utilizzando informazioni per le quali non è nota l'etichetta corretta. Qui la macchina deve fondamentalmente raggruppare le informazioni in base ai vari modelli o eventuali correlazioni senza prima eseguire l'allenamento su alcun dato.

La regressione è una forma di tecnica di apprendimento automatico supervisionata che tenta di prevedere qualsiasi attributo con valore continuo. Analizza la relazione tra una variabile target (dipendente) e la sua variabile predittiva (indipendente). La regressione è uno strumento importante per l'analisi dei dati che può essere utilizzato per la modellazione di serie temporali, la previsione e altro.

La regressione implica il processo di adattamento di una curva o di una linea retta su vari punti dati. È fatto in modo tale che le distanze tra la curva e i punti dati risultino minime.

Sebbene le regressioni lineari e logistiche siano i tipi più popolari, esistono molti altri tipi di regressione che possono essere applicati a seconda delle loro prestazioni su un particolare insieme di dati. Questi diversi tipi variano a causa del numero e del tipo di tutte le variabili dipendenti e anche del tipo di curva di regressione formata.

Scopri: Differenza tra Data Science e Data Mining

Sommario

Regressione lineare

La regressione lineare forma una relazione tra la variabile target (dipendente) e una o più variabili indipendenti utilizzando una linea retta di best fit.

È rappresentato dall'equazione:

Y = a + b*X + e ,

dove a è l'intercetta, b è la pendenza della retta di regressione ed e è l'errore. X e Y sono rispettivamente le variabili predittive e target. Quando X è composto da più di una variabile (o caratteristica) viene definita regressione lineare multipla.

La linea più adatta si ottiene utilizzando il metodo dei minimi quadrati. Questo metodo riduce al minimo la somma dei quadrati delle deviazioni da ciascuno dei punti dati alla retta di regressione. Le distanze negative e positive non vengono cancellate qui poiché tutte le deviazioni sono al quadrato.

Regressione polinomiale

Nella regressione polinomiale, la potenza della variabile indipendente è maggiore di 1 nell'equazione di regressione. Di seguito è riportato un esempio:

Y = a + b*X^2

In questa particolare regressione, la linea di miglior adattamento non è una linea retta come nella regressione lineare. Tuttavia, è una curva che viene adattata a tutti i punti dati.

L'implementazione della regressione polinomiale può comportare un adattamento eccessivo quando si è tentati di ridurre gli errori rendendo la curva più complessa. Quindi, cerca sempre di adattare la curva generalizzandola al problema.

Regressione logistica

La regressione logistica viene utilizzata quando la variabile dipendente è di natura binaria (Vero o Falso, 0 o 1, successo o errore). Qui il valore target (Y) varia da 0 a 1 ed è comunemente usato per problemi di tipo di classificazione. La regressione logistica non richiede che le variabili dipendenti e indipendenti abbiano una relazione lineare, come nel caso della regressione lineare.

Leggi : Idee per progetti di data mining

Regressione della cresta

Ridge Regression è una tecnica utilizzata per analizzare più dati di regressione che presentano il problema della multicollinearità. La multicollinearità è l'esistenza di una correlazione quasi lineare tra due variabili indipendenti qualsiasi.

Si verifica quando le stime dei minimi quadrati hanno una bassa distorsione, ma hanno una varianza elevata, quindi sono molto diverse dal valore reale. Pertanto, aggiungendo un grado di distorsione al valore di regressione stimato, gli errori standard vengono notevolmente ridotti implementando la regressione della cresta.

Regressione con lazo

A S S O Il termine “LASSO” sta per L A Shrinkage S O È un tipo di regressione lineare che usa il restringimento . In questo, tutti i punti dati vengono ridotti (o ridotti) verso un punto centrale, chiamato anche media. La procedura lazo è più adatta per modelli semplici e sparsi che hanno relativamente meno parametri. Questo tipo di regressione è adatto anche per modelli che soffrono di multicollinearità (proprio come una cresta).

Ottieni la certificazione di data science dalle migliori università del mondo. Unisciti ai nostri programmi Executive PG, Advanced Certificate Program o Masters per accelerare la tua carriera.

Conclusione

L'analisi di regressione consente fondamentalmente di confrontare gli effetti di diversi tipi di variabili caratteristiche misurate su un'ampia gamma di scale. Come la previsione dei prezzi delle case in base all'area totale, alla località, all'età, ai mobili, ecc. Questi risultati avvantaggiano ampiamente i ricercatori di mercato o gli analisti di dati per eliminare tutte le funzionalità inutili e valutare il miglior insieme di funzionalità per costruire modelli predittivi accurati.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al Diploma PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Cos'è la regressione lineare?

La regressione lineare stabilisce la relazione tra la variabile target o la variabile dipendente e una o più variabili indipendenti. Quando abbiamo più di un predittore nella nostra equazione, diventa una regressione multipla.

Il metodo dei minimi quadrati è considerato il metodo migliore per ottenere la retta più adatta poiché questo metodo riduce al minimo la somma dei quadrati delle deviazioni da ciascuno dei punti dati alla retta di regressione.

Cosa sono le tecniche di regressione e perché sono necessarie?

Queste sono le tecniche per stimare o prevedere le relazioni tra variabili. La relazione si trova tra due variabili, una è l'obiettivo e l'altra è la variabile predittiva (nota anche come variabili x e y).

Diverse tecniche come lineare, logistica, graduale, polinomiale, lazo e cresta possono essere utilizzate per identificare questa relazione. Questo viene fatto per generare previsioni utilizzando raccolte di dati e tracciando grafici tra di loro.

In che modo la tecnica di regressione lineare differisce dalla tecnica di regressione logistica?

La differenza tra entrambe queste tecniche di regressione risiede nel tipo di variabile dipendente. Se la variabile dipendente è continua, viene utilizzata la regressione lineare, mentre se la variabile dipendente è categoriale, viene utilizzata la regressione logistica.

Come suggerisce anche il nome, nella tecnica lineare si identifica una linea lineare o retta. Considerando che, nella tecnica logistica, una curva a S viene identificata poiché la variabile indipendente è un polinomio. I risultati nel caso del lineare sono continui mentre, nel caso della tecnica logistica, i risultati possono essere in categorie come Vero o Falso, 0 o 1, ecc.