Redes neuronales convolucionales: guía definitiva para principiantes en 2022

Publicado: 2021-01-05

Una búsqueda rápida en Google de "ciencia de datos" revelará inequívocamente a cualquiera cómo
popular se ha vuelto el campo en los últimos cinco años. Junto con la ciencia de datos, artificial
la inteligencia, el aprendizaje automático y el aprendizaje profundo también están haciendo rondas populares en
el campo de la informática. El último en agregarse a esta lista es el neural convolucional.
redes: una innovación en el campo de la visión artificial.

Tabla de contenido

¿Dónde empezó todo?

Las redes neuronales en realidad se convirtieron en un éxito en 2012 cuando Alex Krizhevsky ganó el
Competencia ImageNet ese año. Esta competencia es similar a las Olimpiadas de computación
visión y cuando Alex los usó, el error de clasificación se redujo del 26% al 15%.

Este fue el inconfundible rayo láser de esperanza que las empresas y la informática
necesitaban los científicos. Desde entonces, empresas como Instagram, Facebook, Pinterest, etc.
han implementado con entusiasmo redes neuronales para brindar la mejor experiencia a
su audiencia Leer: Tutorial de redes neuronales.

La conexión biológica de las redes neuronales convolucionales también ayudará a hacer su
fundación clara. En 1962, Hubel y Wiesel demostraron que diferentes neuronas en el
la corteza visual se dispararon solo cuando estaban presentes señales visuales específicas. Juntos, estos
Las neuronas tenían una estructura columnar y, cuando se disparaban, producían colectivamente señales visuales.
percepción.

Por ejemplo, algunas neuronas solo se activaron cuando estuvieron expuestas a bordes horizontales.
Otros dispararon en presencia de bordes verticales o diagonales. Así, diferentes neuronas
respondió a diferentes componentes visuales y nos permitió ver.

¿Qué es una red neuronal convolucional?

Una red neuronal convolucional, también llamada CNN o ConvNet, es una red de aprendizaje profundo
algoritmo. Toma una imagen de entrada, asigna pesos/sesgos a los componentes de la
imagen y luego clasifica toda la imagen. Con suficiente capacitación, las ConvNet son
capaz de aprender filtros/clasificación y el preprocesamiento requerido es menor que
en comparación con otros algoritmos. Lea sobre las diferencias entre el aprendizaje profundo y las redes neuronales.

Lo que finalmente queremos que haga una red neuronal convolucional es diferenciar
entre imágenes y clasificarlas correctamente. Es capaz de capturar tanto temporal como
dependencias espaciales debido a la aplicación de filtros relevantes.

Los fundamentos de cómo funciona

La imagen se convierte en una matriz según la resolución y el tamaño de la imagen.

Cada entrada en la matriz consistirá en un número de 0 a 255 (si el sistema RGB es
usado). Este número representará la intensidad de píxeles en ese punto.

Tomando todos estos números como entrada, la computadora generará un número. Este número
significará la probabilidad de que una imagen pertenezca a una determinada clase (por ejemplo, casa,
carretera, autobús, perro, gato, etc.)

Estructura de una CNN

Al ver la imagen de arriba, podría pensar que hay muchas capas en un convolucional.
red neuronal, pero en realidad, solo hay 3 principales. Éstos incluyen:
1. La capa convolucional
2. La capa de agrupación
3. La capa completamente conectada
Profundicemos en cada uno de estos.

La capa convolucional

Esta es la capa central de la red neuronal convolucional. Sus parámetros son
compuesto por un conjunto de filtros. Estos filtros son pequeños, pero cubren toda la profundidad del
volumen de entrada

La tarea principal que se realiza en la capa convolucional es la extracción de datos de alto nivel.
caracteristicas. El primero (como se muestra en la imagen de arriba) es responsable de extraer
características de nivel como color, bordes, etc. Las capas convolucionales posteriores eliminan el
características de alto nivel, lo que conduce a una comprensión/examen completo de la imagen.

La capa de agrupación

Esta capa está destinada a reducir el tamaño espacial de la representación de la imagen. como tal,
también ayuda a reducir la cantidad de cómputo y procesamiento en la red neuronal.
Además, también extrae características dominantes que son posicionales y rotacionales.
invariante.

Un tipo de agrupación se realiza mediante la operación Max. Esta operación selecciona el
valor máximo de cada grupo de neuronas en la capa anterior. El otro tipo de agrupación
es la agrupación promedio que devuelve un valor promedio del clúster.
Dado que Max pooling también actúa como un supresor de ruido, funciona mejor que Average
puesta en común

Como se muestra en la imagen de arriba, hay varias capas de agrupación además de
capas convolucionales. Cuanto mayor sea el número de estas capas, más características de bajo nivel
será extraído. Sin embargo, la potencia computacional gastada también aumentará.

Ahora que la imagen ha pasado por todos los procesos convolucionales y de agrupación actuales
capas, la extracción de características está completa. Ahora es el momento de la clasificación de la imagen. La capa totalmente conectada lleva a cabo esta tarea.

Las capas totalmente conectadas (FCL)

Como última capa, la capa FC es simplemente una red neuronal de avance. la entrada a
la capa completamente conectada es la salida aplanada de la última combinación/convolucional
capa. Aplanar significa que la matriz o arreglo tridimensional se despliega en un vector.

Para cada capa de FC, se realiza un cálculo matemático específico. Una vez que el vector ha pasado por todas las capas completamente conectadas, la función de activación softmax se usa en la capa final. Esto se utiliza para calcular la probabilidad de que la entrada pertenezca a una tarea en particular.

Por lo tanto, el resultado final son las diferentes probabilidades de que la imagen de entrada pertenezca a diferentes clases.

El proceso se repite para diferentes tipos de imágenes e imágenes individuales dentro de esos tipos. Esto entrena a la red y le enseña a diferenciar entre un perro y un gato, y una rosa y un girasol.

Quitar

La tecnología subyacente de las redes neuronales convolucionales se perfecciona continuamente. Las redes están fuertemente entrenadas para generar probabilidades precisas. Se puede decir con razón: en el campo de la visión artificial, las CNN representan una revolución por sí solas.

Puede consultar nuestro Diploma PG en aprendizaje automático e IA , que ofrece talleres prácticos, mentores individuales de la industria, 12 estudios de casos y asignaciones, estado de ex alumnos de IIIT-B y más.

Liderar la revolución tecnológica impulsada por la IA

DIPLOMA PG EN MACHINE LEARNING E INTELIGENCIA ARTIFICIAL

Aprende más