Modèle de régression linéaire : qu'est-ce que c'est et comment ça marche ?
Publié: 2020-12-16Table des matières
introduction
L'analyse de régression est un outil important pour la modélisation et l'analyse des données ; il est essentiel de trouver la relation entre deux ou plusieurs variables. La régression aide à placer les points de données dans une courbe qui aide à modéliser et à analyser les données. La régression permet de mesurer et de caractériser les variables sur différentes échelles pour l'évaluation des modèles prédictifs et des ensembles de données.
Doit lire : Idées de projets de régression linéaire
Modèle de régression
Le modèle implique les valeurs du coefficient qui sont utilisées dans la représentation des données. Il comprend les propriétés statistiques qui sont utilisées pour estimer ces coefficients ; c'est une fusion de tous les écarts-types, covariances et corrélations. Toutes les données doivent être disponibles.
Le modèle de régression est une condition linéaire qui consolide un arrangement particulier de valeurs d'information (x) dont la réponse est la sortie anticipée pour cet ensemble de valeurs d'information (y). Les valeurs d'information (x) et la sortie sont numériques.
L'équation linéaire attribue un facteur d'échelle à chaque valeur ou segment d'information, appelé coefficient et désigné par la lettre grecque majuscule Beta (B). Un coefficient supplémentaire est également ajouté, donnant à la ligne un niveau d'opportunité supplémentaire (par exemple, aller partout sur un tracé en deux dimensions) et cela est fréquemment appelé le coefficient de capture ou d'inclinaison.
Par exemple, dans une régression de base (un simple x et un simple y), le type du modèle serait :

y = B0 + B1*x
Dans les mesures plus élevées, lorsque nous avons plus d'une information (x), la ligne est connue sous le nom de plan ou d'hyper-plan. La représentation le long de ces lignes est le type de la condition et les qualités particulières utilisées pour les coefficients (par exemple B0 et B1 dans le modèle ci-dessus).
Il n'est pas surprenant de discuter de la nature multiforme d'un modèle de rechute comme la régression. Cela fait allusion au nombre de coefficients utilisés dans le modèle.
Au moment où un coefficient devient nul, il élimine adéquatement l'impact de la variable d'information sur le modèle et par la suite de la prévision produite à l'aide du modèle (0 * x = 0). Ceci est pertinent si vous examinez les techniques de régularisation qui modifient le calcul d'apprentissage pour réduire la nature multiforme des modèles de rechute en serrant la taille suprême des coefficients, en conduisant certains à zéro.
La régression est mieux représentée par une ligne droite où une ou plusieurs variables sont utilisées pour établir une relation.
La logique derrière le modèle :
Comme le modèle de régression utilise l'équation y=mx+c
Où y= variable indépendante
m= pente
c= intercepter pour une ligne donnée
Pour calculer plusieurs variables indépendantes, des modèles de régression multiples seraient mis en œuvre. Voici le processus de création d'un modèle de fonctionnement parfait
- Bibliothèques d'importation - Il existe des paramètres essentiels qui tournent autour de la mise en œuvre de modèles d'apprentissage automatique. La première bibliothèque devrait inclure sklearn car il s'agit de la bibliothèque officielle d'apprentissage automatique en python. Numpy est utilisé pour convertir les données en tableaux et pour accéder aux fichiers de l'ensemble de données, les Pandas sont implémentés.
- Charger l'ensemble de données relatif - Il est accompli à l'aide d'une variable Panda précédemment importée.
- Divisez les variables - Spécifiez et définissez le nombre de variables indépendantes ou de variables dépendantes requises pour les éléments du tableau.
- Fractionnement des données de test et de formation - L'ensemble de données est divisé en domaines de formation et de test pour permettre et faciliter les valeurs aléatoires extraites de l'ensemble de données.
- Choisissez le bon modèle - Le choix approprié nécessiterait un processus d'essais et d'erreurs où le même ensemble de données serait impliqué avec d'autres modèles.
- Prédiction de sortie - Le modèle fonctionnerait sur la variable dépendante soutenue par les valeurs de test de la variable indépendante, les méthodes intégrées pour ces modèles effectuent les calculs qualitatifs pour chaque valeur présentée.
Cela initie la mise en œuvre du modèle de régression linéaire. Les fonctions de prédiction linéaire sont implémentées pour la modélisation des relations, comme mentionné précédemment. La moyenne conditionnelle de la réponse donne au modèle les prédicteurs requis pour déplacer la moyenne conditionnelle de la réponse.

L'objectif de ces prédictions et prévisions est de prendre en compte des variables supplémentaires sans ajouter de valeur de réponse associée ; le modèle ajusté serait mis en œuvre pour faire la prédiction nécessaire pour cette réponse.
Les modèles de régression linéaire sont de préférence utilisés avec l'approche des moindres carrés, où la mise en œuvre peut nécessiter d'autres moyens en minimisant les écarts et les fonctions de coût, par exemple. Les modèles linéaires généraux incluent une variable de réponse qui est de nature vectorielle et non directement scalaire. La linéarité conditionnelle est toujours présumée positive tout au long du processus de modélisation. Ils varient sur une grande échelle, mais ils sont mieux décrits comme la distribution asymétrique, qui est liée à la distribution log-normale.

Lire : Types de modèles de régression dans l'apprentissage automatique
Avertissements
Étant donné que les deux variables sont liées, cela n'exclut pas la caractéristique que l'une provoque l'autre.
Si une équation de régression linéaire pour un ensemble de données est tentée et qu'elle fonctionne, cela ne signifie pas nécessairement que l'équation est parfaitement ajustée, il pourrait y avoir d'autres itérations avec une perspective similaire. Pour vous assurer que la technique est authentique, essayez de tracer une ligne avec les points de données pour trouver la linéarité de l'équation.
Pour résumer
Il est prouvé que la méthode de régression linéaire fournit une méthode bien meilleure, puissante et statistique qui permet d'augmenter les chances et de trouver la prévisibilité des événements et des relations entre deux ou plusieurs variables d'intérêt en la matière.
Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.
Mentionnez quelques problèmes auxquels on peut être confronté lors de l'utilisation d'un modèle de régression linéaire.
La régression linéaire aide à prédire la relation entre la moyenne de la variable dépendante et les facteurs indépendants. Cela devient problématique car parfois la seule façon de résoudre un problème est de regarder la valeur extrême de la variable dépendante. La régression quantile, en revanche, peut être utilisée pour résoudre ce problème. De plus, la régression linéaire suppose que les données présentées sont indépendantes, ce qui est incorrect en cas de problèmes de regroupement.
Qu'est-ce qu'un coefficient de corrélation linéaire en régression ?
Le coefficient de corrélation n'est qu'un aspect de l'analyse de la relation entre les variables en régression linéaire simple. En fait, c'est l'une des méthodes d'analyse statistique les plus puissantes et les plus largement utilisées. Le coefficient de corrélation produit-moment de Pearson, qui est essentiellement une statistique qui nous indique à quel point deux variables sont étroitement liées, est le coefficient de corrélation le plus fréquemment utilisé. Le coefficient de corrélation linéaire évalue la force de l'association linéaire entre deux variables. Une connexion linéaire parfaite est celle dans laquelle un changement dans une variable provoque un changement unitaire identique dans l'autre variable.
En quoi l'analyse de régression est-elle utile dans n'importe quelle entreprise ?
L'analyse de régression aide une organisation à comprendre ce que représentent ses points de données et à leur appliquer des approches analytiques commerciales afin de prendre de meilleures décisions. Cet outil statistique sophistiqué est utilisé par les analystes commerciaux et les professionnels des données pour éliminer les variables inutiles et choisir les plus pertinentes. Les organisations utilisent la prise de décision basée sur les données, qui supprime les techniques de la vieille école telles que deviner ou supposer une hypothèse et, par conséquent, augmente les performances au travail.