Ein Convolutional Neural Network (CNN) ist ein Typ eines künstlichen neuronalen Netzes, das insbesondere für die Verarbeitung von Bildern und Videos entwickelt wurde. Die Architektur des CNN basiert auf der Funktionsweise des menschlichen visuellen Kortex, der Informationen hierarchisch verarbeitet. Dies macht CNNs besonders effektiv für Aufgaben wie Objekterkennung, Gesichtserkennung oder die Analyse medizinischer Bilder.
Die Struktur eines CNN besteht typischerweise aus mehreren Schichten: Convolutional-Schichten, Pooling-Schichten, Aktivierungsfunktionen und vollständig verbundenen Schichten. In den Convolutional-Schichten werden Filter über das Eingabebild geführt, um lokale Muster und Merkmale zu extrahieren. Die Pooling-Schichten reduzieren die räumliche Auflösung der Daten, wodurch die Rechenkomplexität gesenkt und die Robustheit gegenüber Überanpassung erhöht wird. Aktivierungsfunktionen wie ReLU (Rectified Linear Unit) werden verwendet, um nicht-lineare Beziehungen zwischen den Merkmalen modellieren zu können. Die vollständig verbundenen Schichten dienen schließlich der Klassifizierung oder Regression.
CNNs sind besonders effizient, da sie die Spatial Hierarchie von Bildern nutzen und somit weniger Parameter benötigen als traditionelle neuronale Netze. Dies ermöglicht eine schnellere Ausführung und reduziert den Datumsatz, der für das Training erforderlich ist. Darüber hinaus können CNNs durch Übertragungslernen vorgefertigte Modelle nutzen, um die Anpassung an spezifische Aufgaben zu beschleunigen.
In vielen Branchen wie der Automobilindustrie, der Medizin und der Unterhaltungstechnologie werden CNNs erfolgreich eingesetzt, um komplexe visuelle Aufgaben zu lösen. Durch ihre Fähigkeit, Muster in Bildern zu erkennen und zu klassifizieren, sind sie zu einem unverzichtbaren Werkzeug in der modernen KI-Forschung und -Anwendung geworden.