Modello di regressione lineare: cos'è e come funziona?

Pubblicato: 2020-12-16

Sommario

introduzione

L'analisi di regressione è uno strumento importante per la modellazione e l'analisi dei dati; è essenziale trovare la relazione tra due o più variabili. La regressione aiuta a posizionare i punti dati all'interno di una curva che aiuta nella modellazione e nell'analisi dei dati. La regressione consente di misurare e caratterizzare le variabili su diverse scale per la valutazione di modelli predittivi e set di dati.

Da leggere: idee per progetti di regressione lineare

Modello di regressione

Il modello coinvolge i valori del coefficiente che vengono utilizzati nella rappresentazione dei dati. Include le proprietà statistiche utilizzate per stimare tali coefficienti; è una fusione di tutte le deviazioni standard, la covarianza e le correlazioni. Tutti i dati devono essere disponibili.

Il modello di regressione è una condizione lineare che consolida una particolare disposizione di valori informativi (x) la cui risposta è l'output previsto per quell'insieme di valori informativi (y). Sia i valori di informazione (x) che l'output sono numerici.

L'equazione lineare assegna un fattore di scala a ciascun valore informativo o segmento, chiamato coefficiente e indicato dalla lettera greca maiuscola Beta (B). Allo stesso modo viene aggiunto un coefficiente in più, che conferisce alla linea un ulteriore livello di opportunità (ad esempio andando dappertutto su un grafico bidimensionale) e questo è spesso chiamato coefficiente di cattura o inclinazione.

Ad esempio, in una regressione di base (una x semplice e una y semplice), il tipo del modello sarebbe:

y = B0 + B1*x

Nelle misurazioni più elevate, quando abbiamo più di un'informazione (x), la linea è nota come piano o iperpiano. La rappresentazione in questo senso è il tipo della condizione e le qualità particolari utilizzate per i coefficienti (ad esempio B0 e B1 nel modello sopra).

Non è inaspettato discutere la natura multiforme di un modello di ricaduta come la regressione. Ciò allude al numero di coefficienti utilizzati nel modello.

Nel momento in cui un coefficiente si azzera, elimina adeguatamente l'impatto della variabile informativa sul modello e successivamente dalla previsione prodotta utilizzando il modello (0 * x = 0). Ciò è pertinente nel caso in cui diamo un'occhiata alle tecniche di regolarizzazione che modificano il calcolo dell'apprendimento per ridurre la natura multiforme dei modelli di ricaduta comprimendo la dimensione suprema dei coefficienti, portando alcuni a zero.

La regressione è rappresentata al meglio con una linea retta in cui una o più variabili vengono utilizzate per stabilire una relazione.

La logica alla base del modello:

Poiché il modello di regressione utilizza l'equazione y=mx+c

Dove y= variabile indipendente

m= pendenza

c= intercetta per una data riga

Per calcolare più variabili indipendenti, verranno implementati più modelli di regressione. Ecco il processo verso la creazione di un modello perfettamente funzionante

  1. Import Libreries- Ci sono parametri essenziali che ruotano attorno all'implementazione di modelli di machine learning. La prima libreria dovrebbe includere sklearn in quanto è la libreria ufficiale di machine learning in Python. Numpy viene utilizzato per convertire i dati in array e per accedere ai file per il set di dati, vengono implementati Panda.
  2. Carica il set di dati relativo : viene eseguito con l'aiuto di una variabile Panda precedentemente importata.
  3. Dividi le variabili : specifica e definisci il numero di variabili indipendenti o variabili dipendenti richieste per gli elementi dell'array.
  4. Suddivisione dei dati di test e addestramento : l'intero set di dati è suddiviso in domini di addestramento e test per consentire e facilitare i valori casuali presi dal set di dati.
  5. Scegli il modello giusto : la scelta appropriata richiederebbe un processo per tentativi ed errori in cui lo stesso set di dati sarebbe implicito con altri modelli.
  6. Previsione dell'output : il modello verrà eseguito sulla variabile dipendente supportata dai valori di test della variabile indipendente, i metodi integrati per questi modelli eseguono la matematica qualitativa per ciascun valore presentato.

Questo avvia l'implementazione del modello di regressione lineare. Le funzioni del predittore lineare sono implementate per la modellazione delle relazioni, come accennato in precedenza. La media condizionale della risposta fornisce al modello i predittori necessari per spostare la media condizionale della risposta.

L'obiettivo di tale previsione e previsione è di accogliere variabili aggiuntive senza aggiungere un valore di risposta di accompagnamento; il modello adattato verrebbe implementato per fare la previsione necessaria per quella risposta.

I modelli di regressione lineare sono più preferibilmente utilizzati con l'approccio dei minimi quadrati, dove l'implementazione potrebbe richiedere altri modi riducendo al minimo le deviazioni e le funzioni di costo, ad esempio. I modelli lineari generali includono una variabile di risposta che è di natura vettoriale e non direttamente scalare. La linearità condizionale è ancora presunta positiva nel processo di modellazione. Variano su larga scala, ma sono meglio descritti come distribuzione asimmetrica, che è correlata alla distribuzione log-normale.

Leggi: Tipi di modelli di regressione in Machine Learning

Avvertenze

Dato che le due variabili sono correlate, ciò non esclude la caratteristica che una causa l'altra.

Se si tenta un'equazione di regressione lineare per un set di dati e funziona, ciò non significa necessariamente che l'equazione sia perfetta, potrebbero esserci altre iterazioni con una prospettiva simile. Per assicurarti che la tecnica sia genuina, prova a tracciare una linea con i punti dati per trovare la linearità dell'equazione.

Riassumere

È dimostrato che il metodo della regressione lineare fornisce un metodo molto migliore, potente e statistico che consente di aumentare le possibilità e trovare la prevedibilità di eventi e relazioni tra due o più variabili di interesse nell'argomento.

Se sei interessato a saperne di più sull'apprendimento automatico, dai un'occhiata al Diploma PG di IIIT-B e upGrad in Machine Learning e AI, progettato per i professionisti che lavorano e offre oltre 450 ore di formazione rigorosa, oltre 30 casi di studio e incarichi, IIIT- B Status di Alumni, oltre 5 progetti pratici pratici e assistenza sul lavoro con le migliori aziende.

Menziona alcuni problemi che si possono incontrare utilizzando un modello di regressione lineare.

La regressione lineare aiuta a prevedere la relazione tra la media della variabile dipendente ei fattori indipendenti. Questo diventa problematico perché a volte l'unico modo per risolvere un problema è guardare il valore estremo della variabile dipendente. La regressione quantile, d'altra parte, può essere utilizzata per risolvere questo problema. Inoltre, la regressione lineare presuppone che i dati presentati siano indipendenti, il che non è corretto in caso di problemi di clustering.

Che cos'è un coefficiente di correlazione lineare nella regressione?

Il coefficiente di correlazione è solo un aspetto dell'analisi della relazione tra variabili nella regressione lineare semplice. In effetti, è uno dei metodi statistici di analisi più potenti e ampiamente utilizzati. Il coefficiente di correlazione prodotto-momento di Pearson, che è fondamentalmente una statistica che ci informa della stretta connessione tra due variabili, è il coefficiente di correlazione più utilizzato. Il coefficiente di correlazione lineare valuta la forza dell'associazione lineare tra due variabili. Una connessione lineare perfetta è quella in cui un cambiamento in una variabile provoca un identico cambiamento di unità nell'altra variabile.

In che modo l'analisi di regressione è utile in qualsiasi azienda?

L'analisi di regressione aiuta un'organizzazione a capire cosa rappresentano i suoi punti dati e ad applicare loro approcci analitici aziendali per prendere decisioni migliori. Questo sofisticato strumento statistico viene utilizzato da analisti aziendali e professionisti dei dati per eliminare le variabili non necessarie e scegliere quelle più rilevanti. Le organizzazioni utilizzano il processo decisionale basato sui dati, che rimuove le tecniche della vecchia scuola come indovinare o assumere un'ipotesi e, di conseguenza, aumenta le prestazioni lavorative.