Zum Hauptinhalt springen

Faltungsneuronale Netze (CNN)

Definition

CNNs verwenden Faltungsschichten, um lokale Muster (Kanten, Texturen) zu erfassen und hierarchische Merkmale aufzubauen. Sie sind das Standard-Rückgrat für Bildklassifikation, -erkennung und -segmentierung.

Im Gegensatz zu dichten neuronalen Netzen teilen Faltungen Gewichte über den Raum, sodass sie translationsäquivariant und effizient für Bilder und andere gitterähnliche Daten sind. Sie bilden das Rückgrat der meisten Computer-Vision-Systeme und werden auch in Transformern für Patch-Einbettungen verwendet.

Funktionsweise

Das Bild (oder die Merkmalskarte) wird in Faltungsschichten eingespeist: jeder Filter gleitet über die Eingabe und berechnet Skalarprodukte, wobei Aktivierungskarten entstehen, die lokale Muster (Kanten, Texturen) hervorheben. Pooling (z. B. Max-Pooling) reduziert räumlich die Größe und fügt leichte Invarianz hinzu. Tiefere Conv-Schichten sehen größere rezeptive Felder und erfassen abstraktere Merkmale (Teile, Objekte). Der finale Klassifikations- (oder Erkennungs-/Segmentierungs-)Kopf besteht meist aus einer oder mehreren dichten Schichten auf den geflatteten oder gepoolten Merkmalen. Das Training verwendet die gleiche Backpropagation und den gleichen Gradientenabstieg wie andere Deep-Learning-Modelle.

Anwendungsfälle

CNNs sind der Standard für jede Aufgabe, bei der räumliche Struktur (Bilder, Video oder 2D/3D-Signale) wichtig ist.

  • Bildklassifikation (z. B. Objekterkennung, medizinische Bildanalyse)
  • Objekterkennung und Instanzsegmentierung
  • Videoanalyse und Aktionserkennung

Externe Dokumentation

Siehe auch