Konvolutionale neuronale Netze (CNNs) sind ein spezieller Typ von Deep-Learning-Modellen, die insbesondere für die Verarbeitung von Bildern und anderen zweidimensionalen Daten konzipiert sind. Der Name leitet sich von der mathematischen Operation der Faltung (Faltung) ab, die ein zentraler Bestandteil dieser Netze ist. CNNs sind inspiriert von der Struktur des visuellen Kortex (visueller Kortex) des menschlichen Gehirns, der Bilder schichtweise verarbeitet, um Muster und Objekte zu erkennen.
Die Architektur von CNNs besteht typischerweise aus mehreren Schichten: Konvolutionsschichten, Pooling-Schichten, Aktivierungsfunktionen und vollständig verbundenen Schichten. In den Konvolutionsschichten werden Filter über das Eingabebild geführt, um lokale Muster wie Kanten oder Texturen zu erkennen. Diese Filter erzeugen sogenannte Feature Maps, die die Positionen der erkannten Muster im Bild darstellen. Durch die Verwendung mehrerer Filter können komplexe Merkmale wie Formen oder Texturen dargestellt werden.
Pooling-Schichten reduzieren die räumliche Auflösung der Feature Maps, wodurch das Modell robuster gegenüber Variationen wie Translation oder Rotation wird. Dies hilft, die allgemeine Leistungsfähigkeit des Modells zu verbessern und Overfitting zu reduzieren. Aktivierungsfunktionen wie die ReLU-Funktion (Rectified Linear Unit) werden verwendet, um nicht-lineare Beziehungen zwischen den Merkmalen zu modellieren.
Die vollständig verbundenen Schichten am Ende des Netzwerks dienen der Klassifizierung der Bilder, indem sie die aus den vorherigen Schichten extrahierten Merkmale nutzen. CNNs werden in der Regel mit Hilfe des Backpropagation-Algorithmus trainiert, bei dem die Gewichte des Netzwerks angepasst werden, um den Fehler zwischen der vorhergesagten und der tatsächlichen Ausgabe zu minimieren.
Anwendungen von CNNs finden sich in Bereichen wie der Bildklassifizierung, Objekterkennung und Bildsegmentierung. Durch ihre Fähigkeit, Merkmale automatisch aus Daten zu extrahieren, haben sie die traditionelle Bildverarbeitung revolutioniert und sind zu einem zentralen Werkzeug in der maschinellen Lernforschung geworden.