Analyse discriminante linéaire pour l'apprentissage automatique : ce que vous devez savoir ?

Publié: 2020-05-22

Les progrès technologiques de ces dernières années ont permis aux appareils connectés de gérer des quantités massives de données. Cependant, le stockage et la sécurité des données restent de grandes préoccupations lorsqu'il s'agit de traiter de telles quantités de données. C'est pourquoi il est très important de traiter les données de la bonne manière. Cela peut souvent être une tâche chronophage.

C'est là qu'interviennent les techniques de réduction de la dimensionnalité des données, telles que l'analyse discriminante linéaire ou LDA . Ces techniques peuvent vous aider à mieux gérer les ensembles de données tout en garantissant la sécurité et la confidentialité des données. Notre objectif dans ce blog sera de discuter de la technique de réduction de la dimensionnalité des données d'analyse discriminante linéaire. Commençons par parler de réduction de dimensionnalité.

Table des matières

Qu'est-ce que la réduction de dimensionnalité ?

Vous pourrez mieux comprendre la technique de l'analyse discriminante linéaire si vous connaissez le contexte du concept sur lequel elle est basée. Lorsque vous traitez des données multidimensionnelles, vous avez des données qui ont un certain nombre de caractéristiques qui sont corrélées les unes avec les autres. Si nous traçons des données multidimensionnelles en deux ou trois dimensions, nous utilisons la technique de réduction de dimensionnalité.

Une alternative qui est également assez couramment utilisée comme substitut à la réduction de la dimensionnalité consiste à tracer des données à l'aide d'histogrammes, de nuages ​​de points et de boîtes à moustaches, entre autres. Ces graphiques peuvent être utilisés pour trouver des modèles dans un ensemble donné de données brutes. Cependant, les graphiques ne présentent pas les données d'une manière facile à déchiffrer pour les gens ordinaires. En outre, les données comportant de nombreuses fonctionnalités nécessiteraient plusieurs graphiques pour identifier les modèles dans cet ensemble de données.

Les techniques de réduction de la dimensionnalité des données, telles que LDA, aident à surmonter ces problèmes en utilisant deux ou trois dimensions pour tracer les données. Cela vous permettra d'être plus explicite dans votre présentation des données, ce qui aura du sens même pour les personnes qui n'ont pas de formation technique.

Lire : 25 questions et réponses d'entrevue sur l'apprentissage automatique

Qu'est-ce que l'analyse discriminante linéaire ?

C'est l'une des techniques de réduction de dimensionnalité les plus utilisées. Il est utilisé dans l'apprentissage automatique ainsi que dans les applications qui ont quelque chose à voir avec la classification des modèles. LDA a un objectif très spécifique, qui est de projeter des caractéristiques qui existent dans un espace de grande dimension sur un espace de dimension inférieure.

Ceci est fait pour éliminer les problèmes de dimensionnalité courants et réduire les coûts et les ressources dimensionnels. Ronald A Fisher est à l'origine du développement du concept original en 1936 - l'analyse discriminante de Fisher ou discriminante linéaire . À l'origine, le discriminant linéaire était une technique à deux classes. La version multi-classes est arrivée plus tard.

L'analyse discriminante linéaire est une méthode de classification supervisée utilisée pour créer des modèles d'apprentissage automatique. Ces modèles basés sur la réduction de la dimensionnalité sont utilisés dans l'application, tels que l'analyse prédictive marketing et la reconnaissance d'images, entre autres. Nous discuterons des applications un peu plus tard.

Alors, que recherchons-nous exactement avec LDA ? Il y a deux domaines que cette technique de réduction de la dimensionnalité aide à découvrir - Les paramètres qui peuvent être utilisés pour expliquer la relation entre un groupe et un objet - Le modèle de précepteur de classification qui peut aider à séparer les groupes. C'est pourquoi LDA est largement utilisé pour modéliser des variétés dans différents groupes. Vous pouvez donc utiliser cette technique pour utiliser deux ou plus de deux classes pour la distribution d'une variable.

Extensions à l'analyse discriminante linéaire

LDA est considérée comme l'une des méthodes les plus simples et les plus efficaces disponibles pour la classification. Comme la méthode est si simple et facile à comprendre, nous avons quelques variantes ainsi que des extensions disponibles pour cela. Certains d'entre eux incluent:

1. Analyse discriminante régularisée ou RDA

RDA est utilisé pour apporter la régularisation dans l'estimation de la variance ou de la covariance. Ceci est fait pour modérer l'impact que les variables ont sur LDA.

2. Analyse discriminante quadratique ou QDA

Dans QDA, différentes classes utilisent leur propre estimation de la variance. Dans le cas où le nombre de la variable d'entrée est supérieur à la normale, chaque classe utilise son estimation de covariance.

3. Analyse discriminante flexible ou FDA

La FDA utilise des entrées avec des combinaisons non linéaires. Les splines en sont un bon exemple.

En savoir plus sur : Idées et sujets de projet Python

Applications LDA courantes

LDA trouve son utilisation dans plusieurs applications. Il peut être utilisé dans n'importe quel problème qui peut être transformé en un problème de classification. Les exemples courants incluent la reconnaissance de la vitesse, la reconnaissance faciale, la chimie, la classification des données de puces à ADN, la récupération d'images, la biométrie et la bioinformatique pour n'en nommer que quelques-uns. Discutons-en quelques-uns.

1. Reconnaissance faciale

En vision par ordinateur, la reconnaissance faciale est considérée comme l'une des applications les plus populaires. La reconnaissance faciale est effectuée en représentant les visages à l'aide de grandes quantités de valeurs de pixels. LDA est utilisé pour réduire le nombre d'entités afin de préparer les bases pour l'utilisation de la méthode de classification. Les nouvelles dimensions sont des combinaisons de valeurs de pixels utilisées pour créer un modèle.

2. Identification du client

Si vous souhaitez identifier les clients sur la base de la probabilité qu'ils achètent un produit, vous pouvez utiliser LDA pour collecter les caractéristiques des clients. Vous pouvez identifier et choisir les caractéristiques qui décrivent le groupe de clients qui présentent les meilleures chances d'acheter un produit.

3. Médical

LDA peut être utilisé pour classer les maladies dans différentes catégories, telles que graves, légères ou modérées. Plusieurs paramètres du patient entreront dans la réalisation de cette tâche de classification. Cette classification permet aux médecins de définir le rythme du traitement.

Lisez aussi: 15 idées de projets d'apprentissage automatique intéressantes pour les débutants

Conclusion

LDA est une technique simple et bien comprise qui est couramment utilisée dans les modèles ML de classification. L'ACP et la régression logistique sont d'autres techniques de réduction de la dimensionnalité à notre disposition. Mais lorsqu'il s'agit de problèmes de classification particuliers, LDA est préféré aux deux autres.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Qu'est-ce que l'analyse discriminante linéaire ?

L'analyse discriminante linéaire (LDA) est un algorithme de classification pour apprendre les caractéristiques sous-jacentes qui sont bonnes pour discriminer un groupe d'échantillons de tous les autres groupes. À la suite de l'application de l'algorithme LDA, nous obtenons un nouvel ensemble de fonctionnalités qui peut être utilisé pour la prédiction de l'appartenance à un groupe. Par exemple, supposons que vous collectiez des adresses IP et que vous souhaitiez déterminer à quel pays elles appartiennent. Vous disposez d'un ensemble d'entraînement d'exemples d'adresses IP et vous pouvez identifier le pays d'origine avec une très grande précision. Si vous avez une nouvelle adresse IP et que vous voulez savoir de quel pays elle provient, vous pouvez la donner à un LDA et il l'attribuera à la classe avec la plus grande probabilité.

Quelles sont les applications de l'analyse discriminante linéaire ?

L'analyse discriminante linéaire (ADL) est un ensemble de techniques dans le cadre de l'apprentissage supervisé. LDA est une méthode où la variable dépendante est linéairement séparable dans l'espace des caractéristiques. LDA est utilisé dans le marketing, la finance et d'autres domaines pour effectuer un certain nombre de tâches de classification telles que le profilage des clients et la détection des fraudes. Par exemple, considérons que nous voulons trouver une combinaison linéaire de variables indépendantes qui sépare deux groupes de points de données. LDA trouve une combinaison linéaire des variables indépendantes qui produit une séparation maximale entre les deux groupes de points de données dans l'espace des caractéristiques.

Qu'est-ce que la réduction de dimensionnalité ?

La réduction de dimensionnalité fait référence à un ensemble de techniques permettant de réduire le nombre de variables dans un ensemble de données. La technique de réduction de dimensionnalité la plus courante est l'analyse en composantes principales (ACP). L'ACP est la technique de réduction de dimensionnalité la plus populaire en raison de sa simplicité, de son élégance mathématique et de ses propriétés statistiques élevées. L'ACP est utilisée pour réduire la dimensionnalité d'un ensemble de données en identifiant l'axe qui contient le plus de variance avec le moins d'erreurs.