Qu'est-ce qu'un réseau de neurones bayésien ? Contexte, idée de base et fonction

Publié: 2020-12-23

Table des matières

introduction

Cet article traite du concept fondamental des réseaux de neurones bayésiens. Ce concept particulier de réseaux de neurones bayésiens entre en jeu lorsque des données invisibles sont introduites dans le réseau de neurones, créant ainsi une incertitude.

La mesure de cette incertitude dans la prédiction, qui manque dans les architectures de réseaux de neurones, est ce que Bayesian Neural Nets explique. Il s'attaque au surajustement mais aide également dans les fonctionnalités supplémentaires telles que l'estimation de l'incertitude et la distribution de probabilité. Le concept de réseaux de neurones a également été expliqué.

Lire : Types d'apprentissage supervisé

Contexte du réseau de neurones bayésien

En comparant l'un des systèmes d'intelligence artificielle les plus performants de ces dix dernières années, toutes ces machines ont une chose en commun : elles intègrent une technique sophistiquée appelée Deep Learning.

En ouvrant le concept d'apprentissage en profondeur, on peut observer qu'il s'agit d'un nom qui a permis une approche relativement nouvelle de l'intelligence artificielle, appelée les réseaux de neurones, qui ont suivi une tendance incohérente depuis environ plus de 70 ans. À titre d'exemple, on observe que le concept de Neural Nets est vaguement basé sur le cerveau humain, qui se compose de millions de nœuds de traitement connectés en un maillage dense tout comme des fils entrelacés.

Les réseaux de neurones bayésiens traitent donc commodément le problème des incertitudes dans les données de formation qui sont ainsi alimentées.

Idée de base du réseau de neurones bayésien

Les réseaux de neurones, plus connus sous le nom de réseaux de neurones, sont un moyen efficace d'apprentissage automatique, dans lequel l'ordinateur apprend, analyse et exécute les tâches en analysant les exemples de formation. Les exemples utilisés sont pour la plupart étiquetés à la main à l'avance. Prenons par exemple un système de reconnaissance d'objets.

Les informations concernant les images étiquetées d'automobiles, de voitures, de maisons ou de tout objet sont données ou alimentées. Il formule ensuite une inférence logique dans le modèle visuel inséré en tant que données qui doivent être constamment corrélées avec d'autres étiquettes spécifiques.

Les architectes qui travaillent avec les réseaux de neurones ont été victorieux en décomposant et en apprenant des mappages d'entrée et de sortie très complexes à partir des données. Néanmoins, une connaissance de base de la même entrée et du système de cartographie de sortie finit généralement par ne pas satisfaire la plupart des situations, en particulier lorsqu'il est nécessaire d'intégrer la croyance d'un modèle particulier ou dans des circonstances où les données sont limitées.

Les réseaux de neurones bayésiens sont les critères ou paramètres qui, dans la plupart des cas, sont exprimés sous forme de distribution et sont généralement appris grâce au concept d'inférence bayésienne, par rapport à une valeur déterministe. Ils ont une capacité interne à digérer la fonction complexe et non linéaire des données, puis à exprimer les incertitudes, les deux en même temps. Cela les a donc également conduits à jouer un rôle plus important dans la poursuite de la collecte et de la construction d'une IA plus fiable et plus compétente.

Doit lire : Types de modèles de régression dans l'apprentissage automatique

Que sont les réseaux de neurones bayésiens ?

Par conséquent, le réseau de neurones bayésien fait référence à l'extension du réseau standard concernant l'inférence précédente. Les réseaux de neurones bayésiens s'avèrent extrêmement efficaces dans des contextes spécifiques lorsque l'incertitude est élevée et absolue. Ces circonstances sont notamment le système de prise de décision, ou avec un paramètre de données relativement inférieur, ou tout type d'apprentissage basé sur un modèle.

Les réseaux de neurones profonds (DNN) ont tendance à formuler une inférence logique avec les données données sans avoir aucune expérience préalable avec l'ensemble de données. En conséquence, ils fonctionnent exceptionnellement bien avec des données non linéaires par nature et nécessitent donc une grande quantité de données à des fins de formation uniquement. En raison du chargement de plus d'informations, le problème de surajustement des surfaces.

Le dilemme qui se pose dans la situation actuelle est que les réseaux de neurones, comme observé précédemment, fonctionnent exceptionnellement bien avec les données qui sont alimentées dans le seul but de la formation, mais auront tendance à sous-performer lorsque des données nouvelles et étrangères sont introduites dans le système. Cela conduit les Nets à être aveugles à certaines incertitudes dans les données de formation elles-mêmes, ce qui les conduit à être trop confiants dans leurs prédictions, ce qui peut être trompeur. Pour éliminer de telles erreurs, les réseaux de neurones bayésiens sont donc utilisés.

Comment fonctionnent les réseaux de neurones bayésiens (BNN) ?

L'objet principal et l'idée derrière les réseaux de neurones bayésiens sont que chaque unité est associée à la distribution de probabilité, qui comprend les poids et les biais.

Ils sont connus sous le nom de variables aléatoires, qui fourniront une valeur complètement différente à chaque fois qu'on y accédera.

Prenant un exemple, si X est une variable et est une variable complètement aléatoire, représente la distribution normale. A chaque accès à X, une valeur divergente de X est donnée. Le processus d'obtention d'une valeur divergente de chaque fois que la valeur de X est récupérée est appelé échantillonnage. La valeur dérivée de chaque échantillon dépend de la distribution de probabilité.

À mesure que la portée de la distribution de probabilité augmente, l'incertitude est directement proportionnelle; en conséquence, il augmente également. Typiquement, dans un réseau de neurones, chaque couche doit avoir des poids fixes, avec les biais qui rendent généralement compte de la sortie. Un réseau bayésien, en revanche, aura la distribution de probabilité qui sera attachée à la couche elle-même.

Une passe avant multiple est effectuée à chaque fois, avec un nouvel ensemble de poids ainsi que des biais. Il est donc utilisé pour traiter la question de la classification. La sortie est fournie pour chaque passe effectuée en avant. Les données téléchargées en tant qu'image d'entrée sont ce qui conduit à une incertitude accrue. Dans un tel cas, il s'agit d'une image que le réseau n'a jamais rencontrée auparavant pour les classes de sortie.

Conclusion

Il est prudent de conclure que les réseaux de neurones bayésiens sont une bénédiction lorsqu'il s'agit d'intégrer et de gérer les incertitudes. Ils se sont également manifestés pour améliorer les performances de prédiction.

Les principaux problèmes fondamentaux qui surviennent dans le développement du réseau de neurones bayésien ou de tout modèle basé sur la probabilité sont les calculs insolubles de la distribution précédente et leurs attentes respectives. De plus, il est exceptionnellement clair que le problème du surajustement est traité de manière très robuste par les réseaux bayésiens.

Si vous souhaitez en savoir plus sur l'apprentissage automatique, consultez le diplôme PG en apprentissage automatique et IA de IIIT-B & upGrad, conçu pour les professionnels en activité et offrant plus de 450 heures de formation rigoureuse, plus de 30 études de cas et missions, IIIT- Statut B Alumni, plus de 5 projets de synthèse pratiques et aide à l'emploi avec les meilleures entreprises.

Comment créer un modèle graphique à partir d'un réseau bayésien ?

En reliant tous les nœuds impliqués dans chaque composant, un réseau bayésien peut être transformé en un modèle graphique non orienté. Cela nécessite la jonction des parents de chaque nœud. Un graphe moral est un graphe non orienté qui correspond à un réseau bayésien spécifique. Le calcul du graphe moral est la première étape de nombreuses techniques de calcul de réseau bayésien.

Quelle est la relation entre un réseau bayésien et la probabilité ?

Un réseau bayésien est créé à l'aide d'un graphe orienté acyclique. Un réseau de neurones bayésien est un modèle de probabilité qui est factorisé en appliquant une seule distribution de probabilité conditionnelle pour chaque variable pour le modèle donné. La distribution est basée sur les parents dans le graphique. Les variables du graphique qui sont séparées sont toujours indépendantes, mais la séparation graphique de base du graphique non orienté est remplacée par la séparation d plus difficile, qui prend en compte l'influence des explications concurrentes pour les valeurs observées.

Mentionnez une hypothèse que font les réseaux bayésiens ?

Lorsque nous recevons la classification cible, une hypothèse critique pour les classificateurs bayésiens naïfs est que toutes les valeurs variables sont conditionnellement indépendantes. Cette hypothèse aide grandement à simplifier les calculs de la fonction objective en termes de probabilité a posteriori. Cependant, pour certaines applications, telles que les documents textuels et les signaux vocaux, cette hypothèse peut ne pas être correcte. Les réseaux de croyance bayésiens peuvent être un choix utile dans ce scénario. Ils emploient un ensemble de probabilités conditionnellement indépendantes plutôt que d'imposer toutes les valeurs possibles à toutes les variables.