Pular para o conteúdo principal

Engenharia de prompts

Definição

A engenharia de prompts é a prática de elaborar texto de entrada — instruções, exemplos, restrições e contexto — para controlar o comportamento de grandes modelos de linguagem sem modificar seus pesos. É a interface principal entre a intenção humana e a saída do modelo, abrangendo desde a formulação de instruções simples até sofisticadas estratégias de raciocínio em múltiplas etapas.

A disciplina cobre três domínios interligados. A configuração inclui parâmetros de amostragem (temperatura, Top-K, Top-P) e controles de geração (máximo de tokens, sequências de parada) que determinam como o modelo produz tokens. As técnicas incluem abordagens estruturadas como cadeia de pensamento, autoconsistência, step-back prompting e prompting de sistema/papel que guiam o processo de raciocínio do modelo. A confiabilidade aborda métodos para tornar as saídas mais confiáveis — desviesamento, ensembling de prompts e autoavaliação.

À medida que os LLMs se integram a sistemas de produção, a engenharia de prompts evoluiu de experimentação ad hoc para uma prática sistemática. Ferramentas como o DSPy e a Engenharia Automática de Prompts até automatizam partes do processo. Seja construindo um chatbot, um assistente de código ou um pipeline de extração de dados, a engenharia de prompts é a primeira — e mais acessível — alavanca para melhorar a qualidade das saídas.

Como funciona

O pipeline de prompts

Toda interação com um LLM começa com um prompt — uma entrada estruturada que pode incluir uma mensagem de sistema, instruções do usuário, exemplos e contexto recuperado. O modelo processa essa entrada e gera a saída token por token, moldada tanto pelo conteúdo do prompt quanto pela configuração de amostragem.

Configuração vs. técnica

Parâmetros de configuração (temperatura, Top-K, Top-P, máximo de tokens) operam no nível da amostragem de tokens — eles influenciam como o modelo seleciona cada token. Técnicas (cadeia de pensamento, autoconsistência, step-back) operam no nível do design do prompt — elas influenciam sobre o que o modelo raciocina. Essas duas camadas interagem: a autoconsistência requer temperatura alta para gerar caminhos de raciocínio diversificados, enquanto a extração de saídas estruturadas funciona melhor com temperatura baixa para determinismo.

A camada de confiabilidade

A engenharia avançada de prompts adiciona uma camada de confiabilidade sobre o prompting básico. Isso inclui executar múltiplos prompts em paralelo (ensembling), pedir ao modelo que critique sua própria saída (autoavaliação) e aplicar estratégias de desviesamento para reduzir erros sistemáticos. Esses métodos trocam custo computacional por qualidade de saída e são especialmente importantes em aplicações de alto risco.

Recursos práticos

Veja também