Saltar al contenido principal

GPT

Definición

GPT se refiere a modelos transformer solo-decoder entrenados para predecir el siguiente token (autorregresivo). Escalar estos modelos ha llevado a los grandes modelos de lenguaje (LLMs) actuales capaces de tareas few-shot y zero-shot.

El diseño solo-decoder es ideal para la generación: en cada paso el modelo se condiciona en tokens anteriores y predice el siguiente. Los LLMs basados en esta idea se afinan con instrucciones y se alinean (p. ej., RLHF) para chat y uso de herramientas. Para tareas de solo comprensión, los encoders estilo BERT pueden ser más eficientes en parámetros.

Cómo funciona

Los tokens se embeben y se alimentan en capas causales de decoder: cada posición solo puede atender a sí misma y a posiciones anteriores (auto-atención enmascarada), por lo que el modelo no puede "ver" el futuro. El siguiente token se predice a partir de la representación de la última posición (generalmente con una capa lineal y softmax sobre el vocabulario). El entrenamiento maximiza la probabilidad del siguiente token dado el contexto anterior (teacher forcing). La inferencia genera autorregresivamente: se muestrea o se elige ávidamente el siguiente token, se añade y se repite hasta una condición de parada. Prompt engineering y afinamiento moldean cómo el modelo usa este mecanismo para tareas.

Casos de uso

Los modelos solo-decoder son la base del chat, código y cualquier tarea que se beneficie de generación autorregresiva o prompting few-shot.

  • Generación de texto y código (completado, resumen, diálogo)
  • Clasificación few-shot y zero-shot mediante prompts
  • Asistentes y chatbots basados en modelos afinados con instrucciones

Documentación externa

Ver también