GPT
Definição
GPT refere-se a modelos transformer somente-decoder treinados para prever o próximo token (autorregressivo). Escalar esses modelos levou aos grandes modelos de linguagem (LLMs) atuais, capazes de tarefas few-shot e zero-shot.
O projeto somente-decoder é ideal para geração: a cada passo o modelo se condiciona nos tokens anteriores e prevê o próximo. Os LLMs construídos sobre essa ideia são então ajustados com instruções e alinhados (ex.: RLHF) para chat e uso de ferramentas. Para tarefas apenas de compreensão, encoders estilo BERT podem ser mais eficientes em parâmetros.
Como funciona
Os tokens são embutidos e alimentados em camadas causais de decoder: cada posição só pode atender a si mesma e posições anteriores (auto-atenção mascarada), então o modelo não pode "ver" o futuro. O próximo token é previsto a partir da representação da última posição (geralmente com uma camada linear e softmax sobre o vocabulário). O treinamento maximiza a probabilidade do próximo token dado o contexto anterior (teacher forcing). A inferência gera autorregressivamente: amostrar ou escolher avidamente o próximo token, adicioná-lo e repetir até uma condição de parada. Prompt engineering e ajuste fino moldam como o modelo usa esse mecanismo para tarefas.
Casos de uso
Modelos somente-decoder são a base do chat, código e qualquer tarefa que se beneficie de geração autorregressiva ou prompting few-shot.
- Geração de texto e código (completação, resumo, diálogo)
- Classificação few-shot e zero-shot via prompts
- Assistentes e chatbots baseados em modelos ajustados com instruções