GPT

Definition

GPT bezeichnet Nur-Decoder-Transformer-Modelle, die trainiert werden, das nächste Token vorherzusagen (autoregressiv). Die Skalierung dieser Modelle hat zu den heutigen großen Sprachmodellen (LLMs) geführt, die Few-Shot- und Zero-Shot-Aufgaben beherrschen.

Das Nur-Decoder-Design eignet sich gut für Generierung: Bei jedem Schritt konditioniert das Modell auf vorherige Token und sagt das nächste vorher. LLMs, die auf dieser Idee basieren, werden dann instruktionsabgestimmt und aligniert (z. B. RLHF) für Chat und Werkzeugnutzung. Für reine Verständnisaufgaben können BERT-Stil-Encoder parametereffizienter sein.

Funktionsweise

Tokens werden eingebettet und in kausale Decoder-Schichten eingespeist: jede Position kann nur sich selbst und vorherige Positionen beachten (maskierte Self-Attention), sodass das Modell die Zukunft nicht „sehen" kann. Das nächste Token wird aus der Repräsentation der letzten Position vorhergesagt (oft mit einer linearen Schicht und Softmax über das Vokabular). Training maximiert die Wahrscheinlichkeit des nächsten Tokens bei gegebenem vorherigem Kontext (Teacher Forcing). Inferenz generiert autoregressiv: das nächste Token wird gesampelt oder gierig gewählt, angehängt und wiederholt bis zu einer Stoppbedingung. Prompt Engineering und Feinabstimmung formen, wie das Modell diesen Mechanismus für Aufgaben nutzt.

Anwendungsfälle

Nur-Decoder-Modelle sind das Rückgrat von Chat, Code und jeder Aufgabe, die von autoregressiver Generierung oder Few-Shot-Prompting profitiert.

Text- und Code-Generierung (Vervollständigung, Zusammenfassung, Dialog)
Few-Shot- und Zero-Shot-Klassifikation über Prompts
Assistenten und Chatbots basierend auf instruktionsabgestimmten Modellen

GPT

Definition

Funktionsweise

Anwendungsfälle

Externe Dokumentation

Siehe auch

Definition​

Funktionsweise​

Anwendungsfälle​

Externe Dokumentation​

Siehe auch​

Definition

Funktionsweise

Anwendungsfälle

Externe Dokumentation

Siehe auch