Savoir pourquoi le modèle linéaire généralisé est un modèle de synthèse remarquable !
Publié: 2020-11-17Table des matières
Comprendre les bases
GLM est très célèbre parmi les personnes qui traitent différents modèles de régression allant des modèles de régression linéaire classique aux modèles d'analyse de survie. Le terme modèle linéaire généralisé (GLIM ou GLM ) a été inventé et familiarisé par McCullagh (1982) et Nelder (2e édition 1989). GLM , sous la forme la plus simple décrite dans Rutherford 2001, Data = Model + Error. Il a un cadre utile, qui est le fondement de divers tests statistiques.
Revisiter la classe des modèles
- Modèles de régression linéaire classique (CLR), également appelés modèles de régression linéaire
- Modèles d'analyse de la variance (ANOVA).
- Modèles qui prédisent les chances de gagner comme la probabilité de panne de la machine
- Modèles utilisés pour expliquer et prédire le nombre d'événements
- Modèles pour estimer la durée de vie des êtres vivants et non vivants tels qu'un processeur ou l'âge biologique d'une plante, etc.
Le modèle linéaire généralisé , comme son nom l'indique, est comme un auvent pour tous les modèles ci-dessus avec des calculs et des approximations améliorés.
La structure des modèles linéaires généralisés
Un modèle linéaire généralisé (ou GLM1) se compose de trois composants principaux :
- Composante aléatoire : une composante aléatoire connue sous le nom de modèle de bruit ou modèle d'erreur est la distribution de probabilité de la variable de réponse (Y).
- Composante systématique : un prédicteur linéaire est une fonction linéaire de régresseurs, comme mentionné ci-dessous :
ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
- Fonction de lien (notée par η ou g(μ) ): Comme son nom l'indique, c'est le lien entre les composants systématiques et aléatoires
Exemple : μi = E(Yi), au prédicteur linéaire g(μi) = ηi = α + β1Xi1 + β2Xi2 +···+ βkXik
Le modèle linéaire généralisé s'applique aux données par le processus du maximum de vraisemblance. Cela fournit les estimations des coefficients de régression et les erreurs types asymptotiques estimées des coefficients.

Le GLM de base pour les données de comptage est le modèle de Poisson avec un lien logarithmique. Cependant, lorsque la variable de réponse est un compte, sa variance conditionnelle augmente plus rapidement que sa moyenne, produisant une condition appelée surdispersion et invalidant l'utilisation de la distribution de Poisson. Le quasi-Poisson GLM ajoute un paramètre de dispersion pour gérer les données de comptage surdispersées.
En termes généraux, l'estimation de quasi-vraisemblance est un moyen de tenir compte de la surdispersion, qui est une variabilité plus importante dans les données que celle attendue du modèle statistique utilisé.

Un modèle similaire est basé sur la distribution binomiale négative, qui n'est pas une famille exponentielle. Les binômes négatifs dans le modèle linéaire généralisé ne peuvent pas être déterminés par le maximum de vraisemblance. Le modèle de régression de Poisson gonflé à zéro peut être mieux adapté lorsqu'il y a plus de zéros dans les données qu'il n'est compatible avec une distribution de Poisson.
Lire : Explication des modèles d'apprentissage automatique

Avantages du modèle linéaire généralisé par rapport à la régression traditionnelle des moindres carrés ordinaires (OLS)
Les modèles linéaires généraux présentent de nombreux avantages par rapport à la régression OLS, qui peuvent être résumés comme suit :
- Contrairement à la régression OLS, la réponse Y n'a pas besoin d'être transformée à chaque fois pour avoir une distribution normale.
- La modélisation est plus flexible car le choix d'un lien est différent du choix d'un composant aléatoire.
- Une variance constante n'est PAS nécessaire si le lien donne des effets additifs.
- Nous avons les propriétés optimales des estimateurs car les modèles sont attachés via l'estimation du maximum de vraisemblance.
- Tous les outils d'inférence et la vérification des modèles pour les modèles de régression log-linéaire et logistique s'appliquent également aux autres GLM.
- Il n'y a généralement qu'un seul processus (procédure ou fonction) dans un progiciel pour capturer tous les modèles répertoriés dans le tableau ci-dessus ; prenez, par exemple, glm() (Langage R) ou PROC GENMOD (SAS).
Inconvénients du modèle linéaire généralisé
Outre les avantages énumérés ci-dessus, il existe deux inconvénients majeurs qu'il est important de connaître :
- Certaines restrictions telles que la fonction linéaire ne peuvent avoir qu'un prédicteur linéaire dans le composant systématique.
- Les réponses ne peuvent pas dépendre les unes des autres.
Doit lire: Idées de projets d'apprentissage automatique expliquées
Conclusion
Si nous résumons toutes les informations ci-dessus, nous avons constaté que GLM est pratique avec une complexité moindre. Avec GLM , les variables de réponse peuvent avoir n'importe quelle forme de type de distribution exponentielle. En dehors de cela, il peut traiter des prédicteurs catégoriels. Le modèle linéaire général est facile à interpréter et permet de comprendre clairement comment chaque prédicteur influence le résultat.
Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.
Qu'est-ce qu'un modèle de régression de Poisson ?
En quoi un modèle linéaire général est-il différent d'un modèle linéaire généralisé ?
Quelles sont certaines des hypothèses que fait un modèle linéaire généralisé ?
La majorité des hypothèses GLM sont comparables aux modèles de régression linéaire, mais certaines des hypothèses de régression linéaire sont modifiées. Les données d'un GLM sont supposées indépendantes et aléatoires. Les erreurs sont également considérées comme indépendantes, bien qu'elles n'aient pas à être distribuées régulièrement. Bien qu'il ne soit pas nécessaire que la variable de réponse soit indépendante, la distribution doit appartenir à la famille exponentielle.
