Pular para o conteúdo principal

DeepSeek

Definição

DeepSeek é um laboratório de pesquisa em IA chinês e plataforma comercial que ganhou considerável atenção internacional por produzir modelos com desempenho competitivo em relação aos melhores modelos proprietários, enquanto publica os pesos de forma aberta e opera a uma fração do custo. Fundada em 2023 como subsidiária da High-Flyer (um fundo de hedge quantitativo), a abordagem da DeepSeek é caracterizada por pesquisa rigorosa sobre eficiência de treinamento — incluindo inovações em arquiteturas mixture-of-experts (MoE), aprendizado por reforço com feedback humano e novas abordagens de raciocínio que não dependem de orçamentos massivos de computação.

A linha de modelos abrange três áreas principais de capacidade. DeepSeek-V3 é um modelo de chat e seguimento de instruções de uso geral que rivaliza com GPT-4o e Claude 3.5 Sonnet em benchmarks padrão, sendo dramaticamente mais barato via API. DeepSeek-R1 é um modelo de raciocínio dedicado que usa chain-of-thought estendido (CoT) — o modelo gera rastros de raciocínio explícitos antes de produzir uma resposta final — tornando-o particularmente forte em matemática, dedução lógica e resolução de problemas em múltiplas etapas. DeepSeek-Coder (e suas variantes sucessoras integradas ao V3/R1) se especializa em geração, conclusão e depuração de código em uma ampla gama de linguagens de programação.

A abordagem de pesos abertos da DeepSeek significa que todos os principais modelos estão disponíveis no Hugging Face e podem ser auto-hospedados em sua própria infraestrutura — uma capacidade crítica para organizações com requisitos de soberania de dados ou que buscam evitar custos por token de API em escala. A plataforma DeepSeek também expõe uma API wire-compatível com o formato da API OpenAI, o que significa que qualquer aplicação construída com o SDK Python da OpenAI pode mudar para modelos DeepSeek alterando a base_url e a chave de API sem outras modificações de código.

Como funciona

Plataforma de API

A DeepSeek hospeda uma API de inferência em nuvem em api.deepseek.com que aceita requisições no formato OpenAI Chat Completions. Essa camada de compatibilidade significa que a sobrecarga de integração é mínima — desenvolvedores familiarizados com o SDK da OpenAI podem migrar ou testar modelos DeepSeek em minutos. A plataforma suporta respostas em streaming, chamadas de função e prompts de sistema. O preço é baseado em tokens e listado publicamente, com tarifas tipicamente 90–95% menores do que modelos OpenAI de nível equivalente, tornando as implantações de produção de alto volume substancialmente mais baratas.

Modelos de raciocínio (DeepSeek-R1)

O DeepSeek-R1 é treinado usando um processo em múltiplas etapas que incorpora aprendizado por reforço para recompensar o modelo por produzir respostas finais corretas — crucialmente, sem depender de dados supervisionados de chain-of-thought na etapa central de treinamento. O modelo gera um bloco <think> contendo seu rastro de raciocínio antes da resposta final. Esse bloco de notas explícito permite ao modelo realizar dedução em múltiplas etapas, verificar seu trabalho e retroceder de caminhos incorretos — comportamentos que melhoram dramaticamente o desempenho em problemas de olimpíadas de matemática, lógica formal e tarefas de codificação complexas que exigem planejamento em muitas etapas.

Modelos de código e DeepSeek-Coder

Os modelos especializados em código da DeepSeek são pré-treinados em grandes corpora de código-fonte (GitHub, plataformas de programação competitiva, documentação) e ajustados fino para seguir instruções em tarefas de codificação. Eles suportam conclusão fill-in-the-middle (FIM), que é o formato padrão usado por ferramentas de autocompletar de IDEs como o Copilot. O DeepSeek-Coder alcança desempenho de topo no HumanEval, MBPP e SWE-bench, superando frequentemente modelos várias vezes maiores de outros fornecedores. As capacidades de codificação também estão integradas ao DeepSeek-V3 e R1, de modo que os modelos de uso geral também funcionam bem em tarefas de código.

Implantação de pesos abertos

Todos os principais modelos DeepSeek têm seus pesos publicados no Hugging Face sob licenças permissivas, permitindo inferência auto-hospedada em hardware GPU de consumidor ou empresarial. O DeepSeek-V3 usa uma arquitetura mixture-of-experts onde apenas um subconjunto de parâmetros é ativado por token, reduzindo significativamente o custo de inferência em comparação com modelos densos de capacidade comparável. As opções populares de implantação incluem vLLM, Ollama (para versões quantizadas) e contêineres NVIDIA NIM. A implantação auto-hospedada é particularmente atraente para cargas de trabalho em lote de grande escala, ajuste fino em dados proprietários ou cenários em que todos os dados devem permanecer on-premises.

Quando usar / Quando NÃO usar

Usar quandoEvitar quando
O custo é uma restrição principal — a API DeepSeek é mais de 90% mais barata que o GPT-4o com qualidade comparávelVocê precisa de um fornecedor com SLA empresarial estabelecido, certificações de conformidade (SOC 2, HIPAA) ou processamento de dados baseado nos EUA
As tarefas exigem raciocínio profundo em múltiplas etapas: matemática, lógica, provas formais, codificação complexaSua tarefa é principalmente multimodal — DeepSeek-V3/R1 são modelos somente de texto
Você quer auto-hospedar modelos de pesos abertos para soberania de dados ou ajuste fino personalizadoVocê precisa do ecossistema mais amplo possível de plugins/ferramentas e integrações de terceiros
Construindo pipelines de lote de alto volume onde a redução de custo por token se acumula significativamenteAplicações de consumidor críticas para latência onde o rastro de raciocínio do R1 adiciona tempo de resposta
Geração de código, revisão de código ou depuração são seus principais casos de usoVocê está em uma jurisdição com requisitos regulatórios sobre a origem do modelo de IA

Comparações

CritérioDeepSeek (V3 / R1)OpenAI (GPT-4o / o1)Meta / Llama
Desempenho de raciocínioR1 competitivo com o1 em benchmarks de matemática/lógicao1 é de nível frontier; GPT-4o forte em raciocínio geralLlama 3.x competitivo mas abaixo de R1/o1 em raciocínio difícil
Qualidade geral de chatV3 competitivo com GPT-4oGPT-4o melhor qualidade geralLlama 3.3 70B competitivo para seu tamanho
Pesos abertosSim (todos os modelos no Hugging Face)Não (somente proprietário)Sim (Meta open-source Llama)
Custo de APIMuito baixo (~$0,27/M tokens de entrada para V3)Alto (~$2,50/M para entrada GPT-4o)Gratuito (auto-hospedado); API Fireworks/Together acessível
Ecossistema e integraçõesCrescendo; API compatível com OpenAI facilita adoçãoMaior ecossistema, mais integraçõesGrande ecossistema open-source
Soberania de dadosAuto-hospedagem possível; dados de API processados na ChinaAzure OpenAI para processamento em região dos EUAAuto-hospedagem completa possível
MultimodalSomente texto (V3/R1)Sim (GPT-4o, DALL-E)Llama 3.2 tem capacidades de visão

Prós e contras

PrósContras
Custo de API dramaticamente menor que OpenAI/AnthropicDados de API roteados por servidores chineses — preocupação para alguns setores regulamentados
R1 oferece desempenho de raciocínio de nível frontierRastros de raciocínio do R1 adicionam latência e uso de tokens
API compatível com OpenAI — custo de migração quase nuloMenor reconhecimento de confiança/marca em ciclos de vendas empresariais ocidentais
Pesos abertos permitem auto-hospedagem e ajuste finoV3/R1 são somente texto; sem capacidades nativas de imagem ou áudio
Forte geração de código na maioria das linguagens de programação comunsComunidade e documentação principalmente em chinês; recursos em inglês ainda estão se atualizando

Exemplos de código

Conclusão de chat com DeepSeek-V3 (compatível com OpenAI)

from openai import OpenAI

# DeepSeek uses the OpenAI SDK with a custom base_url
client = OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
model="deepseek-chat", # maps to DeepSeek-V3
messages=[
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Explain the difference between MoE and dense transformer architectures."},
],
temperature=0.7,
max_tokens=1024,
)

print(response.choices[0].message.content)

Raciocínio com DeepSeek-R1 (chain-of-thought)

from openai import OpenAI

client = OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
model="deepseek-reasoner", # maps to DeepSeek-R1
messages=[
{
"role": "user",
"content": (
"A train leaves City A at 08:00 and travels at 120 km/h. "
"Another train leaves City B (300 km away) at 09:00 and travels "
"toward City A at 80 km/h. At what time do they meet?"
),
}
],
)

# R1 exposes the reasoning trace in reasoning_content
message = response.choices[0].message
if hasattr(message, "reasoning_content") and message.reasoning_content:
print("=== Reasoning trace ===")
print(message.reasoning_content)
print()

print("=== Final answer ===")
print(message.content)

Resposta em streaming com DeepSeek-V3

from openai import OpenAI

client = OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com",
)

stream = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "user", "content": "Write a Python function that implements binary search."},
],
stream=True,
)

for chunk in stream:
delta = chunk.choices[0].delta
if delta.content:
print(delta.content, end="", flush=True)
print()

Inferência auto-hospedada com vLLM

# Start vLLM server (run in terminal):
# vllm serve deepseek-ai/DeepSeek-V3 --tensor-parallel-size 4 --port 8000

from openai import OpenAI

# Point to your local vLLM server instead of DeepSeek cloud
client = OpenAI(
api_key="not-needed", # vLLM does not require a real key
base_url="http://localhost:8000/v1",
)

response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3",
messages=[
{"role": "user", "content": "Summarize the key advantages of mixture-of-experts models."},
],
)

print(response.choices[0].message.content)

Recursos práticos

Veja também