Pular para o conteúdo principal

Transformers

Definição

Transformers são arquiteturas neurais baseadas em auto-atenção: cada token atende a todos os outros para calcular representações contextuais. Evitam recorrência e permitem paralelização, escalando para sequências muito longas e modelos grandes (BERT, GPT, etc.).

Sustentam os LLMs modernos e foram estendidos para modelos multimodais e de visão. Variantes somente-encoder (BERT) e somente-decoder (GPT) são as mais comuns hoje; o layout encoder-decoder continua sendo usado para tarefas de sequência para sequência.

Como funciona

  • Atenção: Query, Key, Value são calculados a partir das entradas; os pesos de atenção combinam valores.
  • Atenção multi-cabeça: Múltiplas cabeças de atenção capturam diferentes relações.
  • Encoder-decoder ou somente-decoder: O encoder (ex.: BERT) vê a sequência completa; o decoder (ex.: GPT) usa mascaramento causal para geração autorregressiva.

O diagrama mostra um bloco: a entrada passa pela atenção multi-cabeça (com add e norm), depois uma rede feed-forward (FFN), depois add e norm novamente. Pilhas de encoder usam atenção bidirecional; pilhas de decoder usam atenção causal (mascarada) para que cada posição veja apenas tokens anteriores. Conexões residuais e normalização de camada estabilizam o treinamento. Empilhar muitos blocos e escalar largura e profundidade produz os grandes modelos usados para NLP e além.

Casos de uso

Transformers sustentam a maioria dos sistemas modernos de NLP e multimodais; variantes somente-encoder, somente-decoder e encoder-decoder se adequam a diferentes tarefas.

  • Estilo BERT: reconhecimento de entidades nomeadas, relevância de busca, resposta a perguntas
  • Estilo GPT: geração de texto, completação de código, chat e diálogo
  • Transformers multimodais para tarefas de visão-linguagem

Vantagens e desvantagens

VantagensDesvantagens
Paralelizável, escalávelAlto custo computacional e de memória
Forte em dependências de longo alcanceRequer grandes volumes de dados
Arquitetura unificada para muitas tarefasDesafios de interpretabilidade

Documentação externa

Veja também