Transformers

Definición

Los Transformers son arquitecturas neuronales basadas en auto-atención: cada token atiende a todos los demás para calcular representaciones contextuales. Evitan la recurrencia y permiten la paralelización, escalando a secuencias muy largas y modelos grandes (BERT, GPT, etc.).

Sustentan los LLMs modernos y se han extendido a modelos multimodales y de visión. Las variantes solo-encoder (BERT) y solo-decoder (GPT) son las más comunes hoy; el diseño encoder-decoder se sigue usando para tareas de secuencia a secuencia.

Cómo funciona

Atención: Query, Key, Value se calculan a partir de las entradas; los pesos de atención combinan valores.
Atención multi-cabeza: Múltiples cabezas de atención capturan diferentes relaciones.
Encoder-decoder o solo-decoder: El encoder (p. ej., BERT) ve la secuencia completa; el decoder (p. ej., GPT) usa enmascaramiento causal para generación autorregresiva.

El diagrama muestra un bloque: la entrada pasa por atención multi-cabeza (con add y norm), luego una red feed-forward (FFN), luego add y norm de nuevo. Los stacks de encoder usan atención bidireccional; los stacks de decoder usan atención causal (enmascarada) para que cada posición solo vea tokens anteriores. Las conexiones residuales y la normalización de capa estabilizan el entrenamiento. Apilar muchos bloques y escalar ancho y profundidad produce los grandes modelos usados para NLP y más allá.

Casos de uso

Los Transformers sustentan la mayoría de los sistemas modernos de NLP y multimodales; las variantes solo-encoder, solo-decoder y encoder-decoder se adaptan a diferentes tareas.

Estilo BERT: reconocimiento de entidades nombradas, relevancia de búsqueda, respuesta a preguntas
Estilo GPT: generación de texto, completado de código, chat y diálogo
Transformers multimodales para tareas de visión-lenguaje

Ventajas y desventajas

Ventajas	Desventajas
Paralelizable, escalable	Alto costo computacional y de memoria
Fuerte en dependencias de largo alcance	Requiere grandes volúmenes de datos
Arquitectura unificada para muchas tareas	Desafíos de interpretabilidad

Documentación externa

Attention Is All You Need (Vaswani et al.) — Paper original del Transformer
Hugging Face – Resumen de modelos — Familias de modelos Transformer
The Illustrated Transformer — Explicación visual de la arquitectura

Definición​

Cómo funciona​

Casos de uso​

Ventajas y desventajas​

Documentación externa​

Ver también​

Definición

Cómo funciona

Casos de uso

Ventajas y desventajas

Documentación externa

Ver también