DeepSeek

Definição

DeepSeek é um laboratório de pesquisa em IA chinês e plataforma comercial que ganhou considerável atenção internacional por produzir modelos com desempenho competitivo em relação aos melhores modelos proprietários, enquanto publica os pesos de forma aberta e opera a uma fração do custo. Fundada em 2023 como subsidiária da High-Flyer (um fundo de hedge quantitativo), a abordagem da DeepSeek é caracterizada por pesquisa rigorosa sobre eficiência de treinamento — incluindo inovações em arquiteturas mixture-of-experts (MoE), aprendizado por reforço com feedback humano e novas abordagens de raciocínio que não dependem de orçamentos massivos de computação.

A linha de modelos abrange três áreas principais de capacidade. DeepSeek-V3 é um modelo de chat e seguimento de instruções de uso geral que rivaliza com GPT-4o e Claude 3.5 Sonnet em benchmarks padrão, sendo dramaticamente mais barato via API. DeepSeek-R1 é um modelo de raciocínio dedicado que usa chain-of-thought estendido (CoT) — o modelo gera rastros de raciocínio explícitos antes de produzir uma resposta final — tornando-o particularmente forte em matemática, dedução lógica e resolução de problemas em múltiplas etapas. DeepSeek-Coder (e suas variantes sucessoras integradas ao V3/R1) se especializa em geração, conclusão e depuração de código em uma ampla gama de linguagens de programação.

A abordagem de pesos abertos da DeepSeek significa que todos os principais modelos estão disponíveis no Hugging Face e podem ser auto-hospedados em sua própria infraestrutura — uma capacidade crítica para organizações com requisitos de soberania de dados ou que buscam evitar custos por token de API em escala. A plataforma DeepSeek também expõe uma API wire-compatível com o formato da API OpenAI, o que significa que qualquer aplicação construída com o SDK Python da OpenAI pode mudar para modelos DeepSeek alterando a base_url e a chave de API sem outras modificações de código.

Como funciona

Plataforma de API

A DeepSeek hospeda uma API de inferência em nuvem em api.deepseek.com que aceita requisições no formato OpenAI Chat Completions. Essa camada de compatibilidade significa que a sobrecarga de integração é mínima — desenvolvedores familiarizados com o SDK da OpenAI podem migrar ou testar modelos DeepSeek em minutos. A plataforma suporta respostas em streaming, chamadas de função e prompts de sistema. O preço é baseado em tokens e listado publicamente, com tarifas tipicamente 90–95% menores do que modelos OpenAI de nível equivalente, tornando as implantações de produção de alto volume substancialmente mais baratas.

Modelos de raciocínio (DeepSeek-R1)

O DeepSeek-R1 é treinado usando um processo em múltiplas etapas que incorpora aprendizado por reforço para recompensar o modelo por produzir respostas finais corretas — crucialmente, sem depender de dados supervisionados de chain-of-thought na etapa central de treinamento. O modelo gera um bloco <think> contendo seu rastro de raciocínio antes da resposta final. Esse bloco de notas explícito permite ao modelo realizar dedução em múltiplas etapas, verificar seu trabalho e retroceder de caminhos incorretos — comportamentos que melhoram dramaticamente o desempenho em problemas de olimpíadas de matemática, lógica formal e tarefas de codificação complexas que exigem planejamento em muitas etapas.

Modelos de código e DeepSeek-Coder

Os modelos especializados em código da DeepSeek são pré-treinados em grandes corpora de código-fonte (GitHub, plataformas de programação competitiva, documentação) e ajustados fino para seguir instruções em tarefas de codificação. Eles suportam conclusão fill-in-the-middle (FIM), que é o formato padrão usado por ferramentas de autocompletar de IDEs como o Copilot. O DeepSeek-Coder alcança desempenho de topo no HumanEval, MBPP e SWE-bench, superando frequentemente modelos várias vezes maiores de outros fornecedores. As capacidades de codificação também estão integradas ao DeepSeek-V3 e R1, de modo que os modelos de uso geral também funcionam bem em tarefas de código.

Implantação de pesos abertos

Todos os principais modelos DeepSeek têm seus pesos publicados no Hugging Face sob licenças permissivas, permitindo inferência auto-hospedada em hardware GPU de consumidor ou empresarial. O DeepSeek-V3 usa uma arquitetura mixture-of-experts onde apenas um subconjunto de parâmetros é ativado por token, reduzindo significativamente o custo de inferência em comparação com modelos densos de capacidade comparável. As opções populares de implantação incluem vLLM, Ollama (para versões quantizadas) e contêineres NVIDIA NIM. A implantação auto-hospedada é particularmente atraente para cargas de trabalho em lote de grande escala, ajuste fino em dados proprietários ou cenários em que todos os dados devem permanecer on-premises.

Quando usar / Quando NÃO usar

Usar quando	Evitar quando
O custo é uma restrição principal — a API DeepSeek é mais de 90% mais barata que o GPT-4o com qualidade comparável	Você precisa de um fornecedor com SLA empresarial estabelecido, certificações de conformidade (SOC 2, HIPAA) ou processamento de dados baseado nos EUA
As tarefas exigem raciocínio profundo em múltiplas etapas: matemática, lógica, provas formais, codificação complexa	Sua tarefa é principalmente multimodal — DeepSeek-V3/R1 são modelos somente de texto
Você quer auto-hospedar modelos de pesos abertos para soberania de dados ou ajuste fino personalizado	Você precisa do ecossistema mais amplo possível de plugins/ferramentas e integrações de terceiros
Construindo pipelines de lote de alto volume onde a redução de custo por token se acumula significativamente	Aplicações de consumidor críticas para latência onde o rastro de raciocínio do R1 adiciona tempo de resposta
Geração de código, revisão de código ou depuração são seus principais casos de uso	Você está em uma jurisdição com requisitos regulatórios sobre a origem do modelo de IA

Comparações

Critério	DeepSeek (V3 / R1)	OpenAI (GPT-4o / o1)	Meta / Llama
Desempenho de raciocínio	R1 competitivo com o1 em benchmarks de matemática/lógica	o1 é de nível frontier; GPT-4o forte em raciocínio geral	Llama 3.x competitivo mas abaixo de R1/o1 em raciocínio difícil
Qualidade geral de chat	V3 competitivo com GPT-4o	GPT-4o melhor qualidade geral	Llama 3.3 70B competitivo para seu tamanho
Pesos abertos	Sim (todos os modelos no Hugging Face)	Não (somente proprietário)	Sim (Meta open-source Llama)
Custo de API	Muito baixo (~$0,27/M tokens de entrada para V3)	Alto (~$2,50/M para entrada GPT-4o)	Gratuito (auto-hospedado); API Fireworks/Together acessível
Ecossistema e integrações	Crescendo; API compatível com OpenAI facilita adoção	Maior ecossistema, mais integrações	Grande ecossistema open-source
Soberania de dados	Auto-hospedagem possível; dados de API processados na China	Azure OpenAI para processamento em região dos EUA	Auto-hospedagem completa possível
Multimodal	Somente texto (V3/R1)	Sim (GPT-4o, DALL-E)	Llama 3.2 tem capacidades de visão

Prós e contras

Prós	Contras
Custo de API dramaticamente menor que OpenAI/Anthropic	Dados de API roteados por servidores chineses — preocupação para alguns setores regulamentados
R1 oferece desempenho de raciocínio de nível frontier	Rastros de raciocínio do R1 adicionam latência e uso de tokens
API compatível com OpenAI — custo de migração quase nulo	Menor reconhecimento de confiança/marca em ciclos de vendas empresariais ocidentais
Pesos abertos permitem auto-hospedagem e ajuste fino	V3/R1 são somente texto; sem capacidades nativas de imagem ou áudio
Forte geração de código na maioria das linguagens de programação comuns	Comunidade e documentação principalmente em chinês; recursos em inglês ainda estão se atualizando

Exemplos de código

Conclusão de chat com DeepSeek-V3 (compatível com OpenAI)

from openai import OpenAI

# DeepSeek uses the OpenAI SDK with a custom base_url
client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-chat",  # maps to DeepSeek-V3
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Explain the difference between MoE and dense transformer architectures."},
    ],
    temperature=0.7,
    max_tokens=1024,
)

print(response.choices[0].message.content)

Raciocínio com DeepSeek-R1 (chain-of-thought)

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-reasoner",  # maps to DeepSeek-R1
    messages=[
        {
            "role": "user",
            "content": (
                "A train leaves City A at 08:00 and travels at 120 km/h. "
                "Another train leaves City B (300 km away) at 09:00 and travels "
                "toward City A at 80 km/h. At what time do they meet?"
            ),
        }
    ],
)

# R1 exposes the reasoning trace in reasoning_content
message = response.choices[0].message
if hasattr(message, "reasoning_content") and message.reasoning_content:
    print("=== Reasoning trace ===")
    print(message.reasoning_content)
    print()

print("=== Final answer ===")
print(message.content)

Resposta em streaming com DeepSeek-V3

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "user", "content": "Write a Python function that implements binary search."},
    ],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta
    if delta.content:
        print(delta.content, end="", flush=True)
print()

Inferência auto-hospedada com vLLM

# Start vLLM server (run in terminal):
# vllm serve deepseek-ai/DeepSeek-V3 --tensor-parallel-size 4 --port 8000

from openai import OpenAI

# Point to your local vLLM server instead of DeepSeek cloud
client = OpenAI(
    api_key="not-needed",  # vLLM does not require a real key
    base_url="http://localhost:8000/v1",
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3",
    messages=[
        {"role": "user", "content": "Summarize the key advantages of mixture-of-experts models."},
    ],
)

print(response.choices[0].message.content)

Recursos práticos

Documentação da API DeepSeek — Referência oficial para a API da plataforma DeepSeek incluindo modelos, parâmetros e preços
GitHub DeepSeek — Repositórios open-source para modelos DeepSeek, código de treinamento e artigos de pesquisa
DeepSeek-R1 no Hugging Face — Cartão do modelo com pesos, resultados de benchmark e instruções de implantação
Relatório técnico DeepSeek-V3 — Artigo de pesquisa detalhando a arquitetura V3, abordagem de treinamento e comparações de benchmark
Guia de implantação DeepSeek com vLLM — Instruções para auto-hospedar modelos DeepSeek com vLLM para inferência em produção

Definição​

Como funciona​

Plataforma de API​

Modelos de raciocínio (DeepSeek-R1)​

Modelos de código e DeepSeek-Coder​

Implantação de pesos abertos​

Quando usar / Quando NÃO usar​

Comparações​

Prós e contras​

Exemplos de código​

Conclusão de chat com DeepSeek-V3 (compatível com OpenAI)​

Raciocínio com DeepSeek-R1 (chain-of-thought)​

Resposta em streaming com DeepSeek-V3​

Inferência auto-hospedada com vLLM​

Recursos práticos​

Veja também​