Transformer

Definition

Transformer sind neuronale Architekturen basierend auf Self-Attention: jedes Token beachtet alle anderen, um kontextuelle Repräsentationen zu berechnen. Sie vermeiden Rekurrenz und ermöglichen Parallelisierung, skalierbar auf sehr lange Sequenzen und große Modelle (BERT, GPT usw.).

Sie bilden die Grundlage moderner LLMs und wurden auf multimodale und Vision-Modelle erweitert. Nur-Encoder (BERT) und Nur-Decoder (GPT) Varianten sind heute am häufigsten; das Encoder-Decoder-Layout wird weiterhin für Sequenz-zu-Sequenz-Aufgaben verwendet.

Funktionsweise

Attention: Query, Key, Value werden aus Eingaben berechnet; Attention-Gewichte kombinieren Werte.
Multi-Head Attention: Mehrere Attention-Köpfe erfassen verschiedene Beziehungen.
Encoder-Decoder oder Nur-Decoder: Der Encoder (z. B. BERT) sieht die gesamte Sequenz; der Decoder (z. B. GPT) verwendet kausale Maskierung für autoregressive Generierung.

Das folgende Diagramm zeigt einen Block: Eingabe durchläuft Multi-Head Attention (mit Add und Norm), dann ein Feed-Forward-Netzwerk (FFN), dann erneut Add und Norm. Encoder-Stapel verwenden bidirektionale Attention; Decoder-Stapel verwenden kausale (maskierte) Attention, sodass jede Position nur vergangene Token sieht. Residualverbindungen und Layer Norm stabilisieren das Training. Das Stapeln vieler solcher Blöcke und die Skalierung von Breite und Tiefe ergibt die großen Modelle für NLP und darüber hinaus.

Anwendungsfälle

Transformer bilden die Grundlage der meisten modernen NLP- und multimodalen Systeme; Nur-Encoder, Nur-Decoder und Encoder-Decoder-Varianten eignen sich für unterschiedliche Aufgaben.

BERT-Stil: Eigennamenerkennung, Suchrelevanz, Fragebeantwortung
GPT-Stil: Textgenerierung, Code-Vervollständigung, Chat und Dialog
Multimodale Transformer für Vision-Sprache-Aufgaben

Vor- und Nachteile

Vorteile	Nachteile
Parallelisierbar, skalierbar	Hoher Rechen- und Speicherbedarf
Stark bei langreichweitigen Abhängigkeiten	Erfordert große Datenmengen
Einheitliche Architektur für viele Aufgaben	Herausforderungen bei der Interpretierbarkeit

Externe Dokumentation

Attention Is All You Need (Vaswani et al.) — Originales Transformer-Paper
Hugging Face – Zusammenfassung der Modelle — Transformer-Modellfamilien
The Illustrated Transformer — Visuelle Erklärung der Architektur

Definition​

Funktionsweise​

Anwendungsfälle​

Vor- und Nachteile​

Externe Dokumentation​

Siehe auch​

Definition

Funktionsweise

Anwendungsfälle

Vor- und Nachteile

Externe Dokumentation

Siehe auch