Reti neurali convoluzionali: guida definitiva per principianti nel 2022

Pubblicato: 2021-01-05

Una rapida ricerca su Google di "data science" rivelerà inequivocabilmente a chiunque come
popolare il campo è diventato negli ultimi cinque anni. Insieme alla scienza dei dati, artificiale
Anche l'intelligenza, l'apprendimento automatico e l'apprendimento profondo stanno facendo un giro popolare
il campo dell'informatica. L'ultimo ad essere aggiunto a questo elenco è il neurale convoluzionale
reti: un'innovazione nel campo della visione artificiale.

Sommario

Dove è iniziato tutto?

Le reti neurali sono diventate un successo nel 2012, quando Alex Krizhevsky ha vinto il
Concorso ImageNet quell'anno. Questa competizione è simile alle Olimpiadi del computer
visione e quando Alex li ha usati, l'errore di classificazione è sceso dal 26% al 15%.

Questo era l'inconfondibile raggio laser della speranza che le aziende e il computer
scienziati necessari. Da allora, aziende come Instagram, Facebook, Pinterest, ecc.
hanno implementato con entusiasmo reti neurali per fornire la migliore esperienza a
il loro pubblico. Leggi: Tutorial sulle reti neurali.

Anche la connessione biologica delle reti neurali convoluzionali aiuterà a realizzarla
fondamenta chiare. Nel 1962, Hubel e Wiesel hanno dimostrato che diversi neuroni nel
corteccia visiva è stata attivata solo quando erano presenti segnali visivi specifici. Insieme, questi
i neuroni avevano una struttura colonnare e, quando attivati, producevano visivamente collettivamente
percezione.

Ad esempio, alcuni neuroni si sono attivati ​​solo quando sono stati esposti ai bordi orizzontali.
Altri hanno sparato in presenza di bordi verticali o diagonali. Quindi, neuroni diversi
ha risposto a diverse componenti visive e ci ha permesso di vedere.

Che cos'è una rete neurale convoluzionale?

Una rete neurale convoluzionale, chiamata anche CNN o ConvNet, è un Deep Learning
algoritmo. Prende un'immagine di input, assegna pesi/distorsioni ai componenti del file
image, quindi classifica l'intera immagine. Con una formazione sufficiente, ConvNets lo è
in grado di apprendere filtri/classificazione e la pre-elaborazione richiesta è inferiore a
rispetto ad altri algoritmi. Leggi le differenze tra deep learning e reti neurali.

Quello che in definitiva vogliamo che una rete neurale convoluzionale faccia è differenziare
tra le immagini e classificarle correttamente. È in grado di catturare sia temporali che
dipendenze spaziali a causa dell'applicazione di filtri rilevanti.

Le basi di come funziona

L'immagine diventa una matrice a seconda della risoluzione e delle dimensioni dell'immagine.

Ogni voce nell'array sarà composta da un numero da 0 a 255 (se il sistema RGB è
Usato). Questo numero rappresenterà l'intensità dei pixel in quel punto.

Prendendo tutti questi numeri come input, il computer emetterà un numero. Questo numero
indicherà la probabilità che un'immagine appartenga a una certa classe (ad esempio casa,
strada, autobus, cane, gatto, ecc.)

Struttura di una CNN

Vedendo l'immagine sopra, potresti pensare che ci siano molti livelli in un convoluzionale
rete neurale, ma in realtà ce ne sono solo 3 principali. Questi includono:
1. Lo strato convoluzionale
2. Lo strato di pooling
3. Il livello completamente connesso
Immergiamoci in ognuno di questi.

Lo strato convoluzionale

Questo è lo strato centrale della rete neurale convoluzionale. I suoi parametri sono
composto da un insieme di filtri. Questi filtri sono piccoli, ma coprono l'intera profondità del
volume di ingresso.

Il compito principale svolto a livello convoluzionale è l'estrazione di alto livello
caratteristiche. Il primo (come mostrato nell'immagine sopra) è responsabile dell'estrazione di
caratteristiche di livello come colore, bordi, ecc. I livelli convoluzionali successivi eliminano il
caratteristiche di alto livello, portando così ad una completa comprensione/lettura dell'immagine.

Lo strato di pooling

Questo livello ha lo scopo di ridurre la dimensione spaziale della rappresentazione dell'immagine. In quanto tale, esso
aiuta anche a ridurre la quantità di calcolo e di elaborazione nella rete neurale.
Inoltre, estrae anche le caratteristiche dominanti che sono posizionalmente e rotazionalmente
invariante.

Un tipo di pooling viene eseguito utilizzando l'operazione Max. Questa operazione seleziona il
valore massimo da ciascun cluster di neuroni al livello precedente. L'altro tipo di raggruppamento
è il pooling medio che restituisce un valore medio dal cluster.
Poiché il pooling massimo funge anche da soppressore del rumore, ha prestazioni migliori rispetto alla media
messa in comune.

Come mostrato nell'immagine sopra, ci sono più livelli di pooling in aggiunta a
strati convoluzionali. Maggiore è il numero di questi livelli, più funzionalità di basso livello
verrà estratto. Tuttavia, aumenterà anche la potenza di calcolo spesa.

Ora che l'immagine è passata attraverso tutto il presente convoluzionale e pooling
livelli, l'estrazione delle caratteristiche è completa. Ora è il momento per la classificazione dell'immagine. Il livello completamente connesso svolge questo compito.

I livelli completamente connessi (FCL)

Come ultimo livello, il livello FC è semplicemente una rete neurale feed-forward. L'ingresso a
lo strato completamente connesso è l'output appiattito dell'ultimo pooling/convoluzionale
strato. Appiattire significa che la matrice o l'array tridimensionale viene srotolato in un vettore.

Per ogni livello FC avviene uno specifico calcolo matematico. Dopo che il vettore è passato attraverso tutti i livelli completamente connessi, la funzione di attivazione softmax viene utilizzata nel livello finale. Viene utilizzato per calcolare la probabilità dell'input appartenente a un determinato compito.

Pertanto, il risultato finale sono le diverse probabilità dell'immagine di input che appartengono a classi diverse.

Il processo viene ripetuto per diversi tipi di immagini e singole immagini all'interno di quei tipi. Questo allena la rete e le insegna a distinguere tra un cane e un gatto e una rosa e un girasole.

Porta via

La tecnologia alla base delle reti neurali convoluzionali viene continuamente perfezionata. Le reti sono pesantemente addestrate in modo da produrre probabilità accurate. Si può giustamente affermare: nel campo della visione artificiale, le CNN rappresentano da sole una rivoluzione.

Puoi controllare il nostro Diploma PG in Machine Learning e AI , che offre workshop pratici pratici, tutor del settore individuale, 12 casi di studio e incarichi, stato di Alumni IIIT-B e altro ancora.

Guida la rivoluzione tecnologica guidata dall'intelligenza artificiale

DIPLOMA PG IN MACHINE LEARNING E INTELLIGENZA ARTIFICIALE
Per saperne di più