BERT

Définition

BERT est un modèle encodeur de transformer pré-entraîné avec la modélisation de langage masqué (MLM) et la prédiction de phrase suivante. Il produit des embeddings contextuels qui sont affinés pour des tâches NLP en aval.

Contrairement aux décodeurs style GPT, BERT utilise un contexte bidirectionnel (gauche et droite de chaque token), ce qui aide pour les tâches de compréhension (p. ex. classification NLP, NER, QA) plutôt que la génération ouverte. Il est souvent utilisé comme encodeur gelé ou affiné dans les pipelines RAG et de recherche.

Comment ça fonctionne

Les tokens sont tokenisés et encodés (embeddings de token + position). Les couches d'encodeur appliquent l'auto-attention bidirectionnelle et des FFN ; la représentation de chaque token est influencée par tous les autres tokens. La sortie peut être poolée (p. ex. [CLS] pour les tâches au niveau de la phrase) ou séquentielle (un vecteur par token pour NER, QA). Pré-entraînement : masquer aléatoirement des tokens et les prédire (MLM), et prédire si deux phrases sont consécutives (NSP). L'affinage ajoute une tête de tâche (p. ex. classifieur linéaire) et met à jour le modèle (ou seulement la tête) sur des données étiquetées.

Cas d'utilisation

Les modèles style BERT excellent quand vous avez besoin de représentations contextuelles riches pour la compréhension (classification, NER, QA) plutôt que la génération.

Reconnaissance d'entités nommées et extraction de relations
Recherche et récupération (matching sémantique, classement de pertinence)
Réponse aux questions et inférence en langage naturel

BERT

Définition

Comment ça fonctionne

Cas d'utilisation

Documentation externe

Voir aussi

Définition​

Comment ça fonctionne​

Cas d'utilisation​

Documentation externe​

Voir aussi​

Définition

Comment ça fonctionne

Cas d'utilisation

Documentation externe

Voir aussi