Redes neurais convolucionais: guia definitivo para iniciantes em 2022
Publicados: 2021-01-05Uma rápida pesquisa no Google por “ciência de dados” revelará inequivocamente a qualquer um como
popular o campo se tornou nos últimos cinco anos. Juntamente com a ciência de dados,
inteligência, aprendizado de máquina e aprendizado profundo também estão fazendo rodadas populares em
a área de informática. O último a ser adicionado a esta lista é o neural convolucional
redes — uma inovação do campo da visão computacional.
Índice
Onde tudo começou?
As redes neurais realmente se tornaram um sucesso em 2012, quando Alex Krizhevsky ganhou o
competição ImageNet naquele ano. Esta competição é semelhante às Olimpíadas de computador
visão e quando Alex os usou, o erro de classificação caiu de 26% para 15%.
Este foi o Raio Laser Inconfundível da Esperança que as empresas e os computadores
cientistas precisavam. Desde então, empresas como Instagram, Facebook, Pinterest, etc.
implementaram entusiasticamente as redes neurais para fornecer a melhor experiência para
sua audiência. Leia: Tutorial de Rede Neural.
A conexão biológica das redes neurais convolucionais também ajudará a tornar sua
fundação clara. Em 1962, Hubel e Wiesel mostraram que diferentes neurônios no
córtex visual foram acionados apenas quando pistas visuais específicas estavam presentes. Juntos, esses
neurônios tinham uma estrutura colunar e, quando disparados, produziam imagens visuais coletivamente.
percepção.
Por exemplo, alguns neurônios só dispararam quando foram expostos a bordas horizontais.
Outros dispararam na presença de bordas verticais ou diagonais. Assim, diferentes neurônios
respondeu a diferentes componentes visuais e nos permitiu ver.
O que é uma rede neural convolucional?
Uma rede neural convolucional – também chamada CNN ou ConvNet, é um Deep Learning
algoritmo. Ele pega uma imagem de entrada, atribui pesos/polarizações aos componentes do
imagem e, em seguida, classifica a imagem inteira. Com treinamento suficiente, as ConvNets são
capaz de aprender filtros/classificação e o pré-processamento necessário é menor
comparado a outros algoritmos. Leia sobre as diferenças entre aprendizado profundo e redes neurais.

Em última análise, o que queremos que uma rede neural convolucional faça é diferenciar
entre as imagens e classificá-las corretamente. É capaz de capturar tanto temporais quanto
dependências espaciais devido à aplicação de filtros relevantes.
O básico de como funciona
A imagem torna-se uma matriz dependendo da resolução e tamanho da imagem.
Cada entrada na matriz consistirá em um número de 0 a 255 (se o sistema RGB for
usado). Este número representará a intensidade do pixel nesse ponto.
Tomando todos esses números como entrada, o computador produzirá um número. Este número
significará a probabilidade de uma imagem pertencer a uma determinada classe (por exemplo, casa,
estrada, ônibus, cachorro, gato, etc.)
Estrutura de uma CNN
Vendo a imagem acima, você pode pensar que há muitas camadas em um convolucional
rede neural, mas na realidade, existem apenas 3 principais. Esses incluem:
1. A camada convolucional
2. A camada de agrupamento
3. A camada totalmente conectada
Vamos mergulhar mais fundo em cada um deles.

A camada convolucional
Esta é a camada central da rede neural convolucional. Seus parâmetros são
composto por um conjunto de filtros. Esses filtros são pequenos, mas cobrem toda a profundidade do
volume de entrada.
A principal tarefa realizada na camada convolucional é a extração de alto nível
recursos. O primeiro (como mostrado na imagem acima) é responsável por extrair
recursos de nível como cor, bordas, etc. As camadas convolucionais subsequentes removem o
características de alto nível, assim, levando a uma compreensão/leitura completa da imagem.
A camada de agrupamento
Esta camada destina-se a reduzir o tamanho espacial da representação da imagem. Como tal, é
também ajuda a reduzir a quantidade de computação e processamento na rede neural.
Além disso, também extrai características dominantes que são posicional e rotacionalmente
invariante.
Um tipo de pooling é feito usando a operação Max. Esta operação seleciona o
valor máximo de cada cluster de neurônios na camada anterior. O outro tipo de agrupamento
é o pool médio que retorna um valor médio do cluster.
Como o pooling Max também atua como um supressor de ruído, ele tem um desempenho melhor que o Average
pooling.
Como é representado na imagem acima, existem várias camadas de pool além de
camadas convolucionais. Quanto maior o número dessas camadas, mais recursos de baixo nível
será extraído. No entanto, o poder computacional gasto também aumentará.
Agora que a imagem passou por todo o presente convolucional e pooling
camadas, a extração de recursos está concluída. Agora é hora da classificação da imagem. A camada totalmente conectada realiza essa tarefa.
As Camadas Totalmente Conectadas (FCL)
Como última camada, a camada FC é simplesmente uma rede neural feed-forward. A entrada para
a camada totalmente conectada é a saída achatada do último agrupamento/convolucional
camada. Achatar significa que a matriz ou matriz tridimensional é desenrolada em um vetor.

Para cada camada FC, ocorre um cálculo matemático específico. Após o vetor ter passado por todas as camadas totalmente conectadas, a função de ativação softmax é usada na camada final. Isso é usado para calcular a probabilidade da entrada pertencer a uma tarefa específica.
Assim, o resultado final são as diferentes probabilidades da imagem de entrada pertencer a diferentes classes.
O processo é repetido para diferentes tipos de imagens e imagens individuais dentro desses tipos. Isso treina a rede e a ensina a diferenciar entre um cachorro e um gato, e uma rosa e um girassol.
Leve embora
A tecnologia subjacente das redes neurais convolucionais está sendo continuamente refinada. As redes são fortemente treinadas para gerar probabilidades precisas. Pode-se dizer com razão: no campo da visão computacional, as CNNs significam uma revolução por si só.
Você pode conferir nosso PG Diploma in Machine Learning and AI , que oferece workshops práticos práticos, mentor individual do setor, 12 estudos de caso e atribuições, status de ex-alunos do IIIT-B e muito mais.