Convolutional Neural Networks: Ultimativer Leitfaden für Anfänger im Jahr 2022
Veröffentlicht: 2021-01-05Eine schnelle Google-Suche nach „Data Science“ zeigt jedem eindeutig, wie
Beliebt ist das Feld in den letzten fünf Jahren geworden. Zusammen mit Data Science künstlich
Intelligenz, maschinelles Lernen und Deep Learning machen ebenfalls beliebte Runden
dem Bereich Informatik. Das neueste, das dieser Liste hinzugefügt wurde, ist Convolutional Neural
Netzwerke – eine Innovation aus dem Bereich Computer Vision.
Inhaltsverzeichnis
Wo alles begann?
Neuronale Netze wurden 2012 tatsächlich zum Hit, als Alex Krizhevsky den gewann
ImageNet-Wettbewerb in diesem Jahr. Dieser Wettbewerb ist vergleichbar mit der Computerolympiade
Vision und als Alex sie benutzte, sank der Klassifizierungsfehler von 26 % auf 15 %.
Dies war der unverwechselbare Laser Ray of Hope, den die Unternehmen und Computer
Wissenschaftler benötigt. Seitdem haben Unternehmen wie Instagram, Facebook, Pinterest usw.
haben mit Begeisterung neuronale Netze implementiert, um die beste Erfahrung zu bieten
ihr Publikum. Lesen Sie: Neuronales Netzwerk-Tutorial.
Dazu trägt auch die biologische Verbindung von Convolutional Neural Networks bei
Fundament klar. 1962 zeigten Hubel und Wiesel, dass verschiedene Neuronen in der
visuellen Kortex wurden nur ausgelöst, wenn spezifische visuelle Hinweise vorhanden waren. Zusammen diese
Neuronen hatten eine säulenförmige Struktur und erzeugten, wenn sie gefeuert wurden, gemeinsam visuelle Effekte
Wahrnehmung.
Beispielsweise feuerten einige Neuronen nur, wenn sie horizontalen Kanten ausgesetzt waren.
Andere feuerten in Anwesenheit von vertikalen oder diagonalen Kanten. Also verschiedene Neuronen
reagierten auf verschiedene visuelle Komponenten und ermöglichten uns zu sehen.
Was ist ein Convolutional Neural Network?
Ein Convolutional Neural Network – auch CNN oder ConvNet genannt – ist ein Deep Learning
Algorithmus. Es nimmt ein Eingabebild, weist den Komponenten des Bildes Gewichte/Vorspannungen zu
Bild und klassifiziert dann das gesamte Bild. Mit genügend Training sind ConvNets
in der Lage, Filter/Klassifizierung zu lernen, und die erforderliche Vorverarbeitung ist geringer als
im Vergleich zu anderen Algorithmen. Lesen Sie mehr über die Unterschiede zwischen Deep Learning und neuronalen Netzen.

Was wir letztendlich von einem Convolutional Neural Network erwarten, ist zu differenzieren
zwischen den Bildern und ordnen sie richtig zu. Es ist in der Lage, sowohl zeitliche als auch
räumliche Abhängigkeiten durch Anwendung entsprechender Filter.
Die Grundlagen, wie es funktioniert
Das Bild wird je nach Auflösung und Größe des Bildes zu einem Array.
Jeder Eintrag im Array besteht aus einer Zahl von 0 bis 255 (wenn es das RGB-System ist
benutzt). Diese Zahl repräsentiert die Pixelintensität an diesem Punkt.
Nimmt man all diese Zahlen als Eingabe, gibt der Computer eine Zahl aus. Diese Nummer
gibt die Wahrscheinlichkeit an, dass ein Bild zu einer bestimmten Klasse gehört (zum Beispiel Haus,
Straße, Bus, Hund, Katze usw.)
Aufbau eines CNN
Wenn Sie das obige Bild sehen, denken Sie vielleicht, dass eine Faltung viele Schichten enthält
neuronales Netzwerk, aber in Wirklichkeit gibt es nur 3 große. Diese schließen ein:
1. Die Faltungsschicht
2. Die Pooling-Schicht
3. Die vollständig verbundene Schicht
Lassen Sie uns tiefer in jeden von diesen eintauchen.

Die Faltungsschicht
Dies ist die Kernschicht des Convolutional Neural Network. Seine Parameter sind
bestehend aus einer Reihe von Filtern. Diese Filter sind klein, decken aber die volle Tiefe des ab
Eingangslautstärke.
Die Hauptaufgabe der Faltungsschicht ist die Extraktion von High-Level
Merkmale. Der erste (wie im Bild oben gezeigt) ist für das Extrahieren von Low-
Ebenenmerkmale wie Farbe, Kanten usw. Die nachfolgenden Faltungsschichten nehmen die heraus
Merkmale auf hoher Ebene, die zu einem vollständigen Verständnis/Durchsehen des Bildes führen.
Die Pooling-Schicht
Diese Schicht soll die räumliche Größe der Bilddarstellung reduzieren. Als solches ist es
hilft auch, den Rechen- und Verarbeitungsaufwand im neuronalen Netzwerk zu reduzieren.
Darüber hinaus extrahiert es auch dominante Merkmale, die positionell und rotatorisch sind
unveränderlich.
Eine Art des Poolings erfolgt mithilfe der Max-Operation. Diese Operation nimmt die
Maximalwert von jedem Neuronencluster auf der vorherigen Schicht. Die andere Art des Poolings
ist das Average Pooling, das einen Durchschnittswert aus dem Cluster zurückgibt.
Da Max Pooling auch als Rauschunterdrücker wirkt, schneidet es besser ab als der Durchschnitt
Zusammenlegen.
Wie im obigen Bild dargestellt, gibt es zusätzlich mehrere Pooling-Layer
Faltungsschichten. Je größer die Anzahl dieser Schichten, desto mehr Low-Level-Features
wird extrahiert. Allerdings wird auch die aufgewendete Rechenleistung zunehmen.
Nun, da das Bild alle gegenwärtigen Faltungen und Bündelungen durchlaufen hat
Ebenen ist die Feature-Extraktion abgeschlossen. Es ist jetzt Zeit für die Klassifizierung des Bildes. Diese Aufgabe übernimmt der Fully Connected Layer.
Die vollständig verbundenen Schichten (FCL)
Als letzte Schicht ist die FC-Schicht einfach ein vorwärtsgerichtetes neuronales Netzwerk. Die Eingabe zu
Die vollständig verbundene Schicht ist die abgeflachte Ausgabe der letzten Zusammenfassung/Faltung
Schicht. Abflachen bedeutet, dass die dreidimensionale Matrix oder das Array zu einem Vektor entrollt wird.

Für jede FC-Schicht findet eine spezifische mathematische Berechnung statt. Nachdem der Vektor alle vollständig verbundenen Schichten durchlaufen hat, wird die Softmax-Aktivierungsfunktion in der letzten Schicht verwendet. Dies wird verwendet, um die Wahrscheinlichkeit zu berechnen, dass die Eingabe zu einer bestimmten Aufgabe gehört.
Somit sind das Endergebnis die unterschiedlichen Wahrscheinlichkeiten, dass das Eingabebild zu unterschiedlichen Klassen gehört.
Der Prozess wird für verschiedene Arten von Bildern und einzelne Bilder innerhalb dieser Typen wiederholt. Das trainiert das Netzwerk und bringt ihm bei, zwischen einem Hund und einer Katze, einer Rose und einer Sonnenblume zu unterscheiden.
Wegbringen
Die zugrunde liegende Technologie der Convolutional Neural Networks wird kontinuierlich weiterentwickelt. Die Netzwerke sind stark trainiert, um genaue Wahrscheinlichkeiten auszugeben. Man kann zu Recht sagen: Allein im Bereich Computer Vision bedeuten CNNs eine Revolution.
Sie können unser PG-Diplom in maschinellem Lernen und KI einsehen , das praktische Workshops, persönlichen Mentor aus der Industrie, 12 Fallstudien und Aufgaben, IIIT-B-Alumni-Status und mehr bietet.