DeepSeek

Definición

DeepSeek es un laboratorio de investigación de IA chino y plataforma comercial que ha ganado considerable atención internacional por producir modelos que logran un rendimiento competitivo con los mejores modelos propietarios mientras publica los pesos de forma abierta y opera a una fracción del costo. Fundado en 2023 como subsidiaria de High-Flyer (un fondo de cobertura cuantitativo), el enfoque de DeepSeek se caracteriza por una investigación rigurosa sobre eficiencia de entrenamiento — incluyendo innovaciones en arquitecturas de mezcla de expertos (MoE), aprendizaje por refuerzo con retroalimentación humana y enfoques novedosos al razonamiento que no dependen de presupuestos masivos de cómputo.

La línea de modelos abarca tres áreas principales de capacidad. DeepSeek-V3 es un modelo de chat e instrucciones de propósito general que rivaliza con GPT-4o y Claude 3.5 Sonnet en benchmarks estándar mientras es dramáticamente más económico a través de la API. DeepSeek-R1 es un modelo de razonamiento dedicado que utiliza cadena de pensamiento extendida (CoT) — el modelo genera trazas de razonamiento explícitas antes de producir una respuesta final — haciéndolo particularmente fuerte en matemáticas, deducción lógica y resolución de problemas de múltiples pasos. DeepSeek-Coder (y sus variantes sucesorias integradas en V3/R1) se especializa en generación, completación y depuración de código en una amplia gama de lenguajes de programación.

El enfoque de pesos abiertos de DeepSeek significa que todos los modelos principales están disponibles en Hugging Face y pueden autoalojarse en su propia infraestructura — una capacidad crítica para organizaciones con requisitos de soberanía de datos o aquellas que buscan evitar costos por token de API a escala. La plataforma DeepSeek también expone una API que es wire-compatible con el formato de API de OpenAI, lo que significa que cualquier aplicación construida con el SDK de Python de OpenAI puede cambiar a modelos DeepSeek cambiando la base_url y la clave API sin ningún otro cambio de código.

Cómo funciona

Plataforma API

DeepSeek aloja una API de inferencia en la nube en api.deepseek.com que acepta solicitudes en el formato OpenAI Chat Completions. Esta capa de compatibilidad significa que la sobrecarga de integración es mínima — los desarrolladores familiarizados con el SDK de OpenAI pueden migrar o probar modelos DeepSeek en minutos. La plataforma admite respuestas en streaming, llamadas a funciones y prompts de sistema. Los precios son basados en tokens y están listados públicamente, con tarifas que típicamente son 90–95% más bajas que los modelos OpenAI de nivel equivalente, haciendo que las implementaciones de producción de alto volumen sean sustancialmente más económicas.

Modelos de razonamiento (DeepSeek-R1)

DeepSeek-R1 se entrena usando un proceso de múltiples etapas que incorpora aprendizaje por refuerzo para recompensar al modelo por producir respuestas finales correctas — crucialmente, sin depender de datos supervisados de cadena de pensamiento en la etapa central de entrenamiento. El modelo genera un bloque <think> que contiene su traza de razonamiento antes de la respuesta final. Este bloc de notas explícito permite al modelo realizar deducción de múltiples pasos, verificar su trabajo y retroceder de caminos incorrectos — comportamientos que mejoran dramáticamente el rendimiento en problemas de olimpiadas de matemáticas, lógica formal y tareas de codificación complejas que requieren planificación a través de muchos pasos.

Modelos de código y DeepSeek-Coder

Los modelos especializados en código de DeepSeek se preentrenan en grandes corpus de código fuente (GitHub, plataformas de programación competitiva, documentación) y se ajustan fino para seguir instrucciones en tareas de codificación. Admiten completación fill-in-the-middle (FIM), que es el formato estándar utilizado por herramientas de autocompletado de IDE como Copilot. DeepSeek-Coder logra un rendimiento superior en HumanEval, MBPP y SWE-bench, superando frecuentemente a modelos varias veces más grandes de otros proveedores. Las capacidades de codificación también están integradas en DeepSeek-V3 y R1, por lo que los modelos de propósito general también funcionan bien en tareas de código.

Implementación de pesos abiertos

Todos los modelos principales de DeepSeek tienen sus pesos publicados en Hugging Face bajo licencias permisivas, habilitando la inferencia autoalojada en hardware GPU de consumo o empresarial. DeepSeek-V3 utiliza una arquitectura de mezcla de expertos donde solo un subconjunto de parámetros se activa por token, reduciendo significativamente el costo de inferencia en comparación con modelos densos de capacidad comparable. Las opciones de implementación populares incluyen vLLM, Ollama (para versiones cuantizadas) y contenedores NVIDIA NIM. La implementación autoalojada es particularmente atractiva para cargas de trabajo por lotes a gran escala, ajuste fino en datos propietarios, o escenarios donde todos los datos deben permanecer on-premises.

Cuándo usar / Cuándo NO usar

Usar cuando	Evitar cuando
El costo es una restricción primaria — la API de DeepSeek es más de un 90% más económica que GPT-4o con calidad comparable	Necesita un proveedor con un SLA empresarial establecido, certificaciones de cumplimiento (SOC 2, HIPAA) o procesamiento de datos en EE.UU.
Las tareas requieren razonamiento profundo de múltiples pasos: matemáticas, lógica, pruebas formales, codificación compleja	Su tarea es principalmente multimodal — DeepSeek-V3/R1 son modelos solo de texto
Quiere autoalojar modelos de pesos abiertos para soberanía de datos o ajuste fino personalizado	Necesita el ecosistema más amplio posible de plugins/herramientas e integraciones de terceros
Construyendo pipelines de lotes de alto volumen donde la reducción de costo por token se acumula significativamente	Aplicaciones de consumo críticas para la latencia donde la traza de razonamiento de R1 agrega tiempo de respuesta
La generación de código, revisión de código o depuración son sus casos de uso principales	Se encuentra en una jurisdicción con requisitos regulatorios sobre el origen del modelo de IA

Comparaciones

Criterio	DeepSeek (V3 / R1)	OpenAI (GPT-4o / o1)	Meta / Llama
Rendimiento de razonamiento	R1 competitivo con o1 en benchmarks de matemáticas/lógica	o1 es de primer nivel; GPT-4o fuerte en razonamiento general	Llama 3.x competitivo pero por debajo de R1/o1 en razonamiento difícil
Calidad de chat general	V3 competitivo con GPT-4o	GPT-4o mejor calidad general	Llama 3.3 70B competitivo para su tamaño
Pesos abiertos	Sí (todos los modelos en Hugging Face)	No (solo propietario)	Sí (Meta open-sources Llama)
Costo de API	Muy bajo (~$0,27/M tokens de entrada para V3)	Alto (~$2,50/M para entrada GPT-4o)	Gratis (autoalojado); API de Fireworks/Together asequible
Ecosistema e integraciones	Creciendo; API compatible con OpenAI facilita adopción	Mayor ecosistema, más integraciones	Gran ecosistema de código abierto
Soberanía de datos	Auto-host posible; datos de API procesados en China	Azure OpenAI para procesamiento en región de EE.UU.	Auto-host completo posible
Multimodal	Solo texto (V3/R1)	Sí (GPT-4o, DALL-E)	Llama 3.2 tiene capacidades de visión

Pros y contras

Pros	Contras
Costo de API dramáticamente más bajo que OpenAI/Anthropic	Los datos de la API se enrutan a través de servidores chinos — preocupación para algunas industrias reguladas
R1 ofrece rendimiento de razonamiento de nivel frontera	Las trazas de razonamiento de R1 agregan latencia y uso de tokens
API compatible con OpenAI — costo de cambio casi nulo	Menor reconocimiento de confianza/marca en ciclos de ventas empresariales occidentales
Los pesos abiertos permiten autoalojamiento y ajuste fino	V3/R1 son solo texto; sin capacidades nativas de imagen o audio
Fuerte generación de código en la mayoría de los lenguajes de programación convencionales	La comunidad y la documentación son principalmente en chino; los recursos en inglés todavía se están poniendo al día

Ejemplos de código

Completación de chat con DeepSeek-V3 (compatible con OpenAI)

from openai import OpenAI

# DeepSeek uses the OpenAI SDK with a custom base_url
client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-chat",  # maps to DeepSeek-V3
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Explain the difference between MoE and dense transformer architectures."},
    ],
    temperature=0.7,
    max_tokens=1024,
)

print(response.choices[0].message.content)

Razonamiento con DeepSeek-R1 (cadena de pensamiento)

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-reasoner",  # maps to DeepSeek-R1
    messages=[
        {
            "role": "user",
            "content": (
                "A train leaves City A at 08:00 and travels at 120 km/h. "
                "Another train leaves City B (300 km away) at 09:00 and travels "
                "toward City A at 80 km/h. At what time do they meet?"
            ),
        }
    ],
)

# R1 exposes the reasoning trace in reasoning_content
message = response.choices[0].message
if hasattr(message, "reasoning_content") and message.reasoning_content:
    print("=== Reasoning trace ===")
    print(message.reasoning_content)
    print()

print("=== Final answer ===")
print(message.content)

Respuesta en streaming con DeepSeek-V3

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "user", "content": "Write a Python function that implements binary search."},
    ],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta
    if delta.content:
        print(delta.content, end="", flush=True)
print()

Inferencia autoalojada con vLLM

# Start vLLM server (run in terminal):
# vllm serve deepseek-ai/DeepSeek-V3 --tensor-parallel-size 4 --port 8000

from openai import OpenAI

# Point to your local vLLM server instead of DeepSeek cloud
client = OpenAI(
    api_key="not-needed",  # vLLM does not require a real key
    base_url="http://localhost:8000/v1",
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3",
    messages=[
        {"role": "user", "content": "Summarize the key advantages of mixture-of-experts models."},
    ],
)

print(response.choices[0].message.content)

Recursos prácticos

Documentación de la API de DeepSeek — Referencia oficial para la API de la plataforma DeepSeek incluyendo modelos, parámetros y precios
GitHub de DeepSeek — Repositorios de código abierto para modelos DeepSeek, código de entrenamiento y artículos de investigación
DeepSeek-R1 en Hugging Face — Tarjeta del modelo con pesos, resultados de benchmark e instrucciones de implementación
Informe técnico de DeepSeek-V3 — Artículo de investigación que detalla la arquitectura V3, el enfoque de entrenamiento y las comparaciones de benchmark
Guía de implementación de DeepSeek con vLLM — Instrucciones para autoalojar modelos DeepSeek con vLLM para inferencia en producción

Definición​

Cómo funciona​

Plataforma API​

Modelos de razonamiento (DeepSeek-R1)​

Modelos de código y DeepSeek-Coder​

Implementación de pesos abiertos​

Cuándo usar / Cuándo NO usar​

Comparaciones​

Pros y contras​

Ejemplos de código​

Completación de chat con DeepSeek-V3 (compatible con OpenAI)​

Razonamiento con DeepSeek-R1 (cadena de pensamiento)​

Respuesta en streaming con DeepSeek-V3​

Inferencia autoalojada con vLLM​

Recursos prácticos​

Ver también​