BERT

Definition

BERT ist ein Transformer-Encoder-Modell, das mit Masked Language Modeling (MLM) und Next-Sentence-Prediction vortrainiert wurde. Es erzeugt kontextuelle Einbettungen, die für nachgelagerte NLP-Aufgaben feinabgestimmt werden.

Im Gegensatz zu GPT-Stil-Decodern verwendet BERT bidirektionalen Kontext (links und rechts jedes Tokens), was bei Verständnisaufgaben (z. B. NLP-Klassifikation, NER, QA) hilft, anstatt bei offener Generierung. Es wird häufig als eingefrorener oder feinabgestimmter Encoder in RAG- und Such-Pipelines verwendet.

Funktionsweise

Tokens werden tokenisiert und eingebettet (Token- + Positionseinbettungen). Die Encoder-Schichten wenden bidirektionale Self-Attention und FFNs an; die Repräsentation jedes Tokens wird von allen anderen Tokens beeinflusst. Die Ausgabe kann gepoolt (z. B. [CLS] für Satzaufgaben) oder sequenziell (ein Vektor pro Token für NER, QA) sein. Vortraining: zufällig Token maskieren und vorhersagen (MLM), und vorhersagen, ob zwei Sätze aufeinanderfolgend sind (NSP). Feinabstimmung fügt einen Aufgabenkopf (z. B. linearen Klassifikator) hinzu und aktualisiert das Modell (oder nur den Kopf) auf gelabelten Daten.

Anwendungsfälle

BERT-Stil-Modelle glänzen, wenn Sie reichhaltige kontextuelle Repräsentationen für Verständnis (Klassifikation, NER, QA) benötigen, anstatt für Generierung.

Eigennamenerkennung und Relationsextraktion
Suche und Retrieval (semantisches Matching, Relevanzranking)
Fragebeantwortung und Natural Language Inference

BERT

Definition

Funktionsweise

Anwendungsfälle

Externe Dokumentation

Siehe auch

Definition​

Funktionsweise​

Anwendungsfälle​

Externe Dokumentation​

Siehe auch​

Definition

Funktionsweise

Anwendungsfälle

Externe Dokumentation

Siehe auch