Transformers
Definição
Transformers são arquiteturas neurais baseadas em auto-atenção: cada token atende a todos os outros para calcular representações contextuais. Evitam recorrência e permitem paralelização, escalando para sequências muito longas e modelos grandes (BERT, GPT, etc.).
Sustentam os LLMs modernos e foram estendidos para modelos multimodais e de visão. Variantes somente-encoder (BERT) e somente-decoder (GPT) são as mais comuns hoje; o layout encoder-decoder continua sendo usado para tarefas de sequência para sequência.
Como funciona
- Atenção: Query, Key, Value são calculados a partir das entradas; os pesos de atenção combinam valores.
- Atenção multi-cabeça: Múltiplas cabeças de atenção capturam diferentes relações.
- Encoder-decoder ou somente-decoder: O encoder (ex.: BERT) vê a sequência completa; o decoder (ex.: GPT) usa mascaramento causal para geração autorregressiva.
O diagrama mostra um bloco: a entrada passa pela atenção multi-cabeça (com add e norm), depois uma rede feed-forward (FFN), depois add e norm novamente. Pilhas de encoder usam atenção bidirecional; pilhas de decoder usam atenção causal (mascarada) para que cada posição veja apenas tokens anteriores. Conexões residuais e normalização de camada estabilizam o treinamento. Empilhar muitos blocos e escalar largura e profundidade produz os grandes modelos usados para NLP e além.
Casos de uso
Transformers sustentam a maioria dos sistemas modernos de NLP e multimodais; variantes somente-encoder, somente-decoder e encoder-decoder se adequam a diferentes tarefas.
- Estilo BERT: reconhecimento de entidades nomeadas, relevância de busca, resposta a perguntas
- Estilo GPT: geração de texto, completação de código, chat e diálogo
- Transformers multimodais para tarefas de visão-linguagem
Vantagens e desvantagens
| Vantagens | Desvantagens |
|---|---|
| Paralelizável, escalável | Alto custo computacional e de memória |
| Forte em dependências de longo alcance | Requer grandes volumes de dados |
| Arquitetura unificada para muitas tarefas | Desafios de interpretabilidade |
Documentação externa
- Attention Is All You Need (Vaswani et al.) — Artigo original do Transformer
- Hugging Face – Resumo dos modelos — Famílias de modelos Transformer
- The Illustrated Transformer — Explicação visual da arquitetura