PCA dans l'apprentissage automatique : hypothèses, étapes d'application et applications
Publié: 2020-11-12Table des matières
Comprendre la réduction de dimensionnalité en ML
Les algorithmes ML (Machine Learning) sont testés avec certaines données qui peuvent être appelées un ensemble de fonctionnalités au moment du développement et des tests. Les développeurs doivent réduire le nombre de variables d'entrée dans leur ensemble de fonctionnalités pour augmenter les performances de tout modèle/algorithme ML particulier.
Par exemple, supposons que vous ayez un jeu de données avec de nombreuses colonnes ou que vous ayez un tableau de points dans un espace 3D. Dans ce cas, vous pouvez réduire les dimensions de votre ensemble de données en appliquant des techniques de réduction de dimensionnalité en ML. PCA (Principal Component Analysis) est l'une des techniques de réduction de dimensionnalité largement utilisées par les développeurs/testeurs ML. Plongeons-nous plus profondément dans la compréhension de l'ACP dans l'apprentissage automatique.
Analyse des composants principaux
L'ACP est une technique statistique non supervisée utilisée pour réduire les dimensions de l'ensemble de données. Les modèles ML avec de nombreuses variables d'entrée ou une dimensionnalité plus élevée ont tendance à échouer lorsqu'ils fonctionnent sur un ensemble de données d'entrée plus élevé. L'ACP aide à identifier les relations entre différentes variables, puis à les coupler. PCA fonctionne sur certaines hypothèses qui doivent être suivies et aide les développeurs à maintenir une norme.
L'ACP implique la transformation des variables de l'ensemble de données en un nouvel ensemble de variables appelées PC (composantes principales). Les composantes principales seraient égales au nombre de variables d'origine dans l'ensemble de données donné.
La première composante principale (PC1) contient la variation maximale qui était présente dans les variables antérieures, et cette variation diminue à mesure que l'on passe au niveau inférieur. Le PC final aurait le moins de variation entre les variables et vous pourrez réduire les dimensions de votre ensemble de fonctionnalités.
Hypothèses de l'ACP
Certaines hypothèses de l'ACP doivent être suivies car elles conduiront à un fonctionnement précis de cette technique de réduction de la dimensionnalité en ML. Les hypothèses de l'ACP sont :

• Il doit y avoir une linéarité dans l'ensemble de données, c'est-à-dire que les variables se combinent de manière linéaire pour former l'ensemble de données. Les variables présentent des relations entre elles.
• L'ACP suppose que la composante principale avec une variance élevée doit faire l'objet d'une attention particulière et que les PC avec une variance plus faible sont ignorés en tant que bruit. Le cadre des coefficients de corrélation de Pearson a conduit à l'origine de l'ACP, et là, on a d'abord supposé que les axes à forte variance ne seraient transformés qu'en composantes principales.
• Toutes les variables doivent être accessibles au même niveau de rapport de mesure. La norme la plus préférée est d'au moins 150 observations de l'ensemble d'échantillons avec une mesure de rapport de 5:1.
• Les valeurs extrêmes qui s'écartent d'autres points de données dans n'importe quel ensemble de données, également appelées valeurs aberrantes, doivent être inférieures. Un plus grand nombre de valeurs aberrantes représentera des erreurs expérimentales et dégradera votre modèle/algorithme ML.
• L'ensemble de caractéristiques doit être corrélé et l'ensemble de caractéristiques réduit après l'application de l'ACP représentera l'ensemble de données d'origine mais de manière efficace avec moins de dimensions.
Doit lire: Salaire d'apprentissage automatique en Inde
Étapes pour appliquer la PCA
Les étapes d'application de l'ACP sur n'importe quel modèle/algorithme ML sont les suivantes :
• La normalisation des données est très nécessaire pour appliquer l'ACP. Les données non mises à l'échelle peuvent causer des problèmes dans la comparaison relative de l'ensemble de données. Par exemple, si nous avons une liste de nombres sous une colonne dans un ensemble de données 2D, la moyenne de ces nombres est soustraite de tous les nombres pour normaliser l'ensemble de données 2D. La normalisation des données peut également être effectuée dans un jeu de données 3D.
• Une fois que vous avez normalisé l'ensemble de données, recherchez la covariance entre différentes dimensions et placez-les dans une matrice de covariance. Les éléments hors diagonale dans la matrice de covariance représenteront la covariance entre chaque paire de variables et les éléments diagonaux représenteront les variances de chaque variable/dimension.
Une matrice de covariance construite pour n'importe quel ensemble de données sera toujours symétrique. Une matrice de covariance représentera la relation dans les données et vous pourrez facilement comprendre la quantité de variance dans chaque composante principale.
• Vous devez trouver les valeurs propres de la matrice de covariance qui représente la variabilité des données sur une base orthogonale dans le tracé. Vous devrez également trouver des vecteurs propres de la matrice de covariance qui représenteront la direction dans laquelle se produit la variance maximale entre les données.
Supposons que votre matrice de covariance 'C' ait une matrice carrée 'E' de valeurs propres de 'C'. Dans ce cas, il doit satisfaire cette équation – déterminant de (EI – C) = 0, où 'I' est une matrice identité de même dimension que de 'C'. Il faut vérifier que leur matrice de covariance est une matrice symétrique/carrée car alors seul le calcul des valeurs propres est possible.

• Disposez les valeurs propres dans un ordre croissant/décroissant et sélectionnez les valeurs propres supérieures. Vous pouvez choisir le nombre de valeurs propres que vous souhaitez utiliser. Vous perdrez des informations en ignorant les valeurs propres plus petites, mais ces valeurs infimes n'auront pas suffisamment d'impact sur le résultat final.
Les valeurs propres supérieures sélectionnées deviendront les dimensions de votre jeu d'entités mis à jour. Nous formons également un vecteur de caractéristiques, qui est une matrice vectorielle constituée de vecteurs propres de valeurs propres choisies relatives.
• À l'aide du vecteur de caractéristiques, nous trouvons les principales composantes de l'ensemble de données en cours d'analyse. Nous multiplions la transposée du vecteur de caractéristiques avec la transposée de la matrice mise à l'échelle (une version mise à l'échelle des données après normalisation) pour obtenir une matrice contenant les composantes principales.
Nous remarquerons que la valeur propre la plus élevée sera appropriée pour les données, et les autres ne fourniront pas beaucoup d'informations sur l'ensemble de données. Cela prouve que nous ne perdons pas de données en réduisant les dimensions de l'ensemble de données ; nous le représentons simplement plus efficacement.
Ces méthodes sont mises en œuvre pour finalement réduire les dimensions de tout jeu de données dans PCA.
Applications de l'ACP
Les données sont générées dans de nombreux secteurs, et il est nécessaire d'analyser les données pour la croissance de toute entreprise/société. L'ACP aidera à réduire les dimensions des données, facilitant ainsi leur analyse. Les applications de l'ACP sont :
• Neuroscience – Les neuroscientifiques utilisent l'ACP pour identifier n'importe quel neurone ou pour cartographier la structure du cerveau pendant les transitions de phase.
• Finance – PCA est utilisé dans le secteur financier pour réduire la dimensionnalité des données afin de créer des portefeuilles de titres à revenu fixe. De nombreuses autres facettes du secteur financier impliquent l'ACP, comme la prévision des rendements, la création d'algorithmes d'allocation d'actifs ou d'algorithmes d'équité, etc.
• Technologie d'image – PCA est également utilisé pour la compression d'image ou le traitement d'image numérique. Chaque image peut être représentée via une matrice en traçant les valeurs d'intensité de chaque pixel, puis nous pouvons y appliquer l'ACP.
• Reconnaissance faciale - L'ACP dans la reconnaissance faciale conduit à la création de eigenfaces qui rend la reconnaissance faciale plus précise.
• Médical – L'ACP est utilisée sur un grand nombre de données médicales pour trouver la corrélation entre différentes variables. Par exemple, les médecins utilisent l'ACP pour montrer la corrélation entre le cholestérol et les lipoprotéines de basse densité.

• Sécurité – Les anomalies peuvent être trouvées facilement à l'aide de PCA. Il est utilisé pour identifier les attaques cyber/informatiques et les visualiser à l'aide de PCA.
Points à emporter
L'ACP peut également entraîner une faible performance du modèle après son application si l'ensemble de données d'origine a une faible corrélation ou aucune corrélation. Les variables doivent être liées les unes aux autres pour appliquer parfaitement l'ACP. L'ACP nous fournit une combinaison de fonctionnalités, et l'importance des fonctionnalités individuelles de l'ensemble de données d'origine est supprimée. Les axes principaux avec le plus de variance sont les composantes principales idéales.
Lisez aussi : Idées de projets d'apprentissage automatique
Conclusion
L'ACP est une technique largement utilisée pour réduire les dimensions d'un ensemble de fonctionnalités.
Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.
L'ACP peut-elle être utilisée sur toutes les données ?
Oui. L'analyse en composantes principales (ACP) est une technique d'analyse de données qui offre un moyen d'examiner et de comprendre des données de très haute dimension. En d'autres termes, l'ACP peut être appliquée à des données comportant un grand nombre de variables. Il existe une idée fausse courante selon laquelle l'ACP ne peut être utilisée que sur des données qui se présentent sous une certaine forme. Par exemple, beaucoup de gens pensent que l'ACP n'est utile que sur des variables numériques. Ce n'est pas le cas. En fait, l'ACP peut être utilisée sur des variables de tous types. Par exemple, l'ACP peut être appliquée à des variables catégorielles, des variables ordinales, etc.
Quelles sont les limites de l'Analyse en Composantes Principales ?
PCA est un excellent outil pour analyser vos données et extraire deux ou trois facteurs les plus importants. Il est bon de repérer les valeurs aberrantes et la tendance. Mais, il a quelques limitations comme : Il ne convient pas aux petits ensembles de données (généralement, l'ensemble de données doit avoir plus de 30 lignes). Il ne trouve pas les facteurs importants mais les sélectionne en fonction des valeurs. Il est donc difficile de trouver les facteurs importants. Il n'a pas de structure mathématique solide derrière lui. Il est difficile de comparer les données avec l'ACP. Il ne trouve aucune relation non linéaire.
Quels sont les avantages de l'analyse en composantes principales ?
L'analyse en composantes principales (ACP) est une méthode statistique utilisée pour transformer un grand nombre de variables éventuellement corrélées en un nombre beaucoup plus petit de variables non corrélées appelées composantes principales. L'ACP peut être utilisée comme technique de réduction des données car elle nous permet de trouver les variables les plus importantes nécessaires pour décrire un ensemble de données. L'ACP peut également être utilisée pour réduire la dimensionnalité de l'espace de données afin d'avoir un aperçu de la structure interne des données. Ceci est utile lorsqu'il s'agit de grands ensembles de données.