Réseaux de neurones convolutifs : guide ultime pour les débutants en 2022
Publié: 2021-01-05Une recherche rapide sur Google de "science des données" révélera sans ambiguïté à n'importe qui comment
le domaine est devenu populaire au cours des cinq dernières années. Parallèlement à la science des données, artificielle
l'intelligence, l'apprentissage automatique et l'apprentissage en profondeur font également des rondes populaires dans
le domaine de l'informatique. Le dernier à être ajouté à cette liste est le neurone convolutif
réseaux - une innovation dans le domaine de la vision par ordinateur.
Table des matières
Où tout a commencé ?
Les réseaux de neurones sont devenus un succès en 2012 lorsque Alex Krizhevsky a remporté le
Concours ImageNet cette année-là. Cette compétition s'apparente aux Jeux Olympiques de l'informatique
vision et quand Alex les a utilisés, l'erreur de classification est passée de 26% à 15%.
C'était le rayon laser indubitable de l'espoir que les entreprises et l'ordinateur
scientifiques nécessaires. Depuis lors, des entreprises comme Instagram, Facebook, Pinterest, etc.
ont mis en place avec enthousiasme des réseaux de neurones pour offrir la meilleure expérience à
leur public. Lire : Tutoriel sur les réseaux de neurones.
La connexion biologique des réseaux de neurones convolutifs contribuera également à rendre son
fondation claire. En 1962, Hubel et Wiesel ont montré que différents neurones du
le cortex visuel n'a été déclenché que lorsque des repères visuels spécifiques étaient présents. Ensemble, ces
les neurones avaient une structure colonnaire et lorsqu'ils étaient déclenchés, ils produisaient collectivement
la perception.
Par exemple, certains neurones ne se déclenchent que lorsqu'ils sont exposés à des bords horizontaux.
D'autres tiraient en présence de bords verticaux ou diagonaux. Ainsi, différents neurones
ont répondu à différents composants visuels et nous ont permis de voir.
Qu'est-ce qu'un réseau de neurones convolutifs ?
Un réseau de neurones convolutifs, également appelé CNN ou ConvNet, est un Deep Learning
algorithme. Il prend une image d'entrée, attribue des poids/biais aux composants du
l'image, puis classe l'image entière. Avec une formation suffisante, les ConvNets sont
capable d'apprendre les filtres/classification et le prétraitement requis est inférieur car
par rapport aux autres algorithmes. Découvrez les différences entre l'apprentissage en profondeur et les réseaux de neurones.

Ce que nous voulons finalement qu'un réseau de neurones convolutionnel fasse, c'est de différencier
entre les images et les classer correctement. Il est capable de capturer à la fois le temps et
dépendances spatiales en raison de l'application de filtres pertinents.
Les bases de son fonctionnement
L'image devient un tableau en fonction de la résolution et de la taille de l'image.
Chaque entrée du tableau consistera en un nombre de 0 à 255 (si le système RVB est
utilisé). Ce nombre représentera l'intensité du pixel à ce point.
En prenant tous ces nombres en entrée, l'ordinateur produira un nombre. Ce nombre
signifiera la probabilité qu'une image appartienne à une certaine classe (par exemple maison,
route, bus, chien, chat, etc.)
Structure d'un CNN
En voyant l'image ci-dessus, vous pourriez penser qu'il y a beaucoup de couches dans une convolution
réseau de neurones, mais en réalité, il n'y en a que 3 principaux. Ceux-ci inclus:
1. La couche convolutionnelle
2. La couche de mutualisation
3. La couche entièrement connectée
Plongeons plus profondément dans chacun d'eux.

La couche convolutive
C'est la couche centrale du réseau de neurones convolutifs. Ses paramètres sont
composé d'un ensemble de filtres. Ces filtres sont petits, mais ils couvrent toute la profondeur du
volume d'entrée.
La tâche principale effectuée au niveau de la couche convolutive est l'extraction de données de haut niveau.
caractéristiques. Le premier (comme le montre l'image ci-dessus) est responsable de l'extraction des
caractéristiques de niveau telles que la couleur, les bords, etc. Les couches convolutives suivantes éliminent le
fonctionnalités de haut niveau, conduisant ainsi à une compréhension / lecture complète de l'image.
La couche de regroupement
Cette couche est destinée à réduire la taille spatiale de la représentation de l'image. En tant que tel, il
contribue également à réduire la quantité de calcul et de traitement dans le réseau neuronal.
De plus, il extrait également les caractéristiques dominantes qui sont en position et en rotation
invariant.
Un type de regroupement est effectué à l'aide de l'opération Max. Cette opération sélectionne le
valeur maximale de chaque groupe de neurones à la couche précédente. L'autre type de mutualisation
est la mise en commun moyenne qui renvoie une valeur moyenne du cluster.
Étant donné que la mise en commun maximale agit également comme un suppresseur de bruit, elle fonctionne mieux que la moyenne
mise en commun.
Comme le montre l'image ci-dessus, il existe plusieurs couches de regroupement en plus de
couches convolutionnelles. Plus le nombre de ces couches est élevé, plus il y a de fonctionnalités de bas niveau
seront extraits. Cependant, la puissance de calcul dépensée augmentera également.
Maintenant que l'image a traversé toutes les convolutions et mises en commun présentes
couches, l'extraction des caractéristiques est terminée. Il est maintenant temps pour la classification de l'image. La couche entièrement connectée exécute cette tâche.
Les couches entièrement connectées (FCL)
En tant que dernière couche, la couche FC est simplement un réseau neuronal à anticipation. L'entrée à
la couche entièrement connectée est la sortie aplatie de la dernière mise en commun/convolution
couche. Aplatir signifie que la matrice ou le tableau tridimensionnel est déroulé dans un vecteur.

Pour chaque couche FC, un calcul mathématique spécifique a lieu. Une fois que le vecteur a traversé toutes les couches entièrement connectées, la fonction d'activation softmax est utilisée dans la couche finale. Ceci est utilisé pour calculer la probabilité que l'entrée appartienne à une tâche particulière.
Ainsi, le résultat final est les différentes probabilités de l'image d'entrée appartenant à différentes classes.
Le processus est répété pour différents types d'images et des images individuelles au sein de ces types. Cela entraîne le réseau et lui apprend à faire la différence entre un chien et un chat, et une rose et un tournesol.
Emporter
La technologie sous-jacente des réseaux de neurones convolutifs est continuellement affinée. Les réseaux sont fortement entraînés afin de produire des probabilités précises. On peut dire à juste titre : dans le domaine de la vision par ordinateur, les CNN constituent à eux seuls une révolution.
Vous pouvez consulter notre diplôme PG en apprentissage automatique et IA , qui propose des ateliers pratiques, un mentor individuel de l'industrie, 12 études de cas et missions, le statut d'ancien IIIT-B, et plus encore.