DeepSeek

Définition

DeepSeek est un laboratoire de recherche en IA chinois et une plateforme commerciale qui a attiré une attention internationale considérable en produisant des modèles dont les performances sont compétitives avec les meilleurs modèles propriétaires tout en publiant les poids ouvertement et en opérant à une fraction du coût. Fondé en 2023 en tant que filiale de High-Flyer (un fonds spéculatif quantitatif), l'approche de DeepSeek se caractérise par une recherche rigoureuse sur l'efficacité de l'entraînement — notamment des innovations dans les architectures mixture-of-experts (MoE), l'apprentissage par renforcement à partir de retours humains, et de nouvelles approches du raisonnement qui ne dépendent pas de budgets de calcul massifs.

La gamme de modèles couvre trois domaines de capacité principaux. DeepSeek-V3 est un modèle de chat et de suivi d'instructions polyvalent qui rivalise avec GPT-4o et Claude 3.5 Sonnet sur les benchmarks standard tout en étant considérablement moins cher via l'API. DeepSeek-R1 est un modèle de raisonnement dédié qui utilise la chaîne de pensée étendue (CoT) — le modèle génère des traces de raisonnement explicites avant de produire une réponse finale — ce qui le rend particulièrement fort en mathématiques, en déduction logique et en résolution de problèmes en plusieurs étapes. DeepSeek-Coder (et ses variantes successeurs intégrées dans V3/R1) se spécialise dans la génération, la complétion et le débogage de code dans une large gamme de langages de programmation.

L'approche poids ouverts de DeepSeek signifie que tous les grands modèles sont disponibles sur Hugging Face et peuvent être auto-hébergés sur leur propre infrastructure — une capacité critique pour les organisations ayant des exigences de souveraineté des données ou cherchant à éviter les coûts par token d'API à grande échelle. La plateforme DeepSeek expose également une API qui est wire-compatible avec le format d'API OpenAI, ce qui signifie que toute application construite avec le SDK Python d'OpenAI peut passer aux modèles DeepSeek en changeant la base_url et la clé API sans autres modifications de code.

Fonctionnement

Plateforme API

DeepSeek héberge une API d'inférence cloud sur api.deepseek.com qui accepte les requêtes au format OpenAI Chat Completions. Cette couche de compatibilité signifie que les coûts d'intégration sont minimes — les développeurs familiers avec le SDK OpenAI peuvent migrer ou tester des modèles DeepSeek en quelques minutes. La plateforme prend en charge les réponses en streaming, les appels de fonctions et les prompts système. La tarification est basée sur les tokens et listée publiquement, avec des tarifs généralement 90–95% inférieurs aux modèles OpenAI de niveau équivalent, rendant les déploiements en production à haut volume substantiellement moins chers.

Modèles de raisonnement (DeepSeek-R1)

DeepSeek-R1 est entraîné en utilisant un processus en plusieurs étapes qui incorpore l'apprentissage par renforcement pour récompenser le modèle pour la production de réponses finales correctes — de manière cruciale, sans s'appuyer sur des données supervisées de chaîne de pensée à l'étape centrale d'entraînement. Le modèle génère un bloc <think> contenant sa trace de raisonnement avant la réponse finale. Ce bloc-notes explicite permet au modèle d'effectuer une déduction en plusieurs étapes, de vérifier son travail et de revenir en arrière depuis des chemins incorrects — des comportements qui améliorent considérablement les performances sur les problèmes d'olympiades mathématiques, la logique formelle et les tâches de codage complexes nécessitant une planification sur de nombreuses étapes.

Modèles de code et DeepSeek-Coder

Les modèles spécialisés dans le code de DeepSeek sont pré-entraînés sur de grands corpus de code source (GitHub, plateformes de programmation compétitive, documentation) et ajustés pour suivre les instructions sur des tâches de codage. Ils prennent en charge la complétion fill-in-the-middle (FIM), qui est le format standard utilisé par les outils d'autocomplétion d'IDE comme Copilot. DeepSeek-Coder atteint des performances de premier plan sur HumanEval, MBPP et SWE-bench, surpassant souvent des modèles plusieurs fois plus grands d'autres fournisseurs. Les capacités de codage sont également intégrées dans DeepSeek-V3 et R1, de sorte que les modèles polyvalents fonctionnent également bien sur les tâches de code.

Déploiement poids ouverts

Tous les grands modèles DeepSeek ont leurs poids publiés sur Hugging Face sous des licences permissives, permettant l'inférence auto-hébergée sur du matériel GPU grand public ou entreprise. DeepSeek-V3 utilise une architecture mixture-of-experts où seul un sous-ensemble de paramètres est activé par token, réduisant considérablement le coût d'inférence par rapport aux modèles denses de capacité comparable. Les options de déploiement populaires incluent vLLM, Ollama (pour les versions quantifiées) et les conteneurs NVIDIA NIM. Le déploiement auto-hébergé est particulièrement attractif pour les charges de travail par lots à grande échelle, l'ajustement fin sur des données propriétaires, ou les scénarios où toutes les données doivent rester sur site.

Quand utiliser / Quand NE PAS utiliser

Utiliser quand	Éviter quand
Le coût est une contrainte principale — l'API DeepSeek est plus de 90% moins chère que GPT-4o à qualité comparable	Vous avez besoin d'un fournisseur avec un SLA entreprise établi, des certifications de conformité (SOC 2, HIPAA) ou un traitement des données basé aux États-Unis
Les tâches nécessitent un raisonnement profond en plusieurs étapes : mathématiques, logique, preuves formelles, codage complexe	Votre tâche est principalement multimodale — DeepSeek-V3/R1 sont des modèles texte uniquement
Vous souhaitez auto-héberger des modèles à poids ouverts pour la souveraineté des données ou un ajustement fin personnalisé	Vous avez besoin de l'écosystème le plus large possible de plugins/outils et d'intégrations tierces
Construction de pipelines de lots à haut volume où la réduction du coût par token s'accumule significativement	Applications grand public critiques pour la latence où la trace de raisonnement de R1 ajoute du temps de réponse
La génération de code, la révision de code ou le débogage sont vos cas d'usage principaux	Vous êtes dans une juridiction avec des exigences réglementaires concernant l'origine des modèles d'IA

Comparaisons

Critère	DeepSeek (V3 / R1)	OpenAI (GPT-4o / o1)	Meta / Llama
Performance de raisonnement	R1 compétitif avec o1 sur les benchmarks maths/logique	o1 est de premier niveau ; GPT-4o fort en raisonnement général	Llama 3.x compétitif mais en dessous de R1/o1 pour le raisonnement difficile
Qualité générale du chat	V3 compétitif avec GPT-4o	GPT-4o meilleure qualité générale	Llama 3.3 70B compétitif pour sa taille
Poids ouverts	Oui (tous les modèles sur Hugging Face)	Non (propriétaire uniquement)	Oui (Meta open-source Llama)
Coût de l'API	Très bas (~0,27$/M tokens d'entrée pour V3)	Élevé (~2,50$/M pour l'entrée GPT-4o)	Gratuit (auto-hébergé) ; API Fireworks/Together abordable
Écosystème et intégrations	En croissance ; API compatible OpenAI facilite l'adoption	Plus grand écosystème, plus d'intégrations	Grand écosystème open-source
Souveraineté des données	Auto-hébergement possible ; données API traitées en Chine	Azure OpenAI pour le traitement en région US	Auto-hébergement complet possible
Multimodal	Texte uniquement (V3/R1)	Oui (GPT-4o, DALL-E)	Llama 3.2 a des capacités de vision

Avantages et inconvénients

Avantages	Inconvénients
Coût de l'API considérablement plus bas qu'OpenAI/Anthropic	Les données de l'API transitent par des serveurs chinois — préoccupation pour certains secteurs réglementés
R1 offre des performances de raisonnement de niveau frontier	Les traces de raisonnement de R1 ajoutent de la latence et de l'utilisation de tokens
API compatible OpenAI — coût de migration quasi nul	Moindre reconnaissance de confiance/marque dans les cycles de vente entreprise occidentaux
Les poids ouverts permettent l'auto-hébergement et l'ajustement fin	V3/R1 sont texte uniquement ; pas de capacités natives d'image ou d'audio
Forte génération de code dans la plupart des langages de programmation courants	La communauté et la documentation sont principalement en chinois ; les ressources en anglais rattrapent leur retard

Exemples de code

Complétion de chat avec DeepSeek-V3 (compatible OpenAI)

from openai import OpenAI

# DeepSeek uses the OpenAI SDK with a custom base_url
client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-chat",  # maps to DeepSeek-V3
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Explain the difference between MoE and dense transformer architectures."},
    ],
    temperature=0.7,
    max_tokens=1024,
)

print(response.choices[0].message.content)

Raisonnement avec DeepSeek-R1 (chaîne de pensée)

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-reasoner",  # maps to DeepSeek-R1
    messages=[
        {
            "role": "user",
            "content": (
                "A train leaves City A at 08:00 and travels at 120 km/h. "
                "Another train leaves City B (300 km away) at 09:00 and travels "
                "toward City A at 80 km/h. At what time do they meet?"
            ),
        }
    ],
)

# R1 exposes the reasoning trace in reasoning_content
message = response.choices[0].message
if hasattr(message, "reasoning_content") and message.reasoning_content:
    print("=== Reasoning trace ===")
    print(message.reasoning_content)
    print()

print("=== Final answer ===")
print(message.content)

Réponse en streaming avec DeepSeek-V3

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "user", "content": "Write a Python function that implements binary search."},
    ],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta
    if delta.content:
        print(delta.content, end="", flush=True)
print()

Inférence auto-hébergée avec vLLM

# Start vLLM server (run in terminal):
# vllm serve deepseek-ai/DeepSeek-V3 --tensor-parallel-size 4 --port 8000

from openai import OpenAI

# Point to your local vLLM server instead of DeepSeek cloud
client = OpenAI(
    api_key="not-needed",  # vLLM does not require a real key
    base_url="http://localhost:8000/v1",
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3",
    messages=[
        {"role": "user", "content": "Summarize the key advantages of mixture-of-experts models."},
    ],
)

print(response.choices[0].message.content)

Ressources pratiques

Documentation de l'API DeepSeek — Référence officielle pour l'API de la plateforme DeepSeek incluant les modèles, les paramètres et les prix
GitHub DeepSeek — Référentiels open-source pour les modèles DeepSeek, le code d'entraînement et les articles de recherche
DeepSeek-R1 sur Hugging Face — Fiche du modèle avec poids, résultats de benchmark et instructions de déploiement
Rapport technique DeepSeek-V3 — Article de recherche détaillant l'architecture V3, l'approche d'entraînement et les comparaisons de benchmarks
Guide de déploiement DeepSeek avec vLLM — Instructions pour auto-héberger des modèles DeepSeek avec vLLM pour l'inférence en production

Définition​

Fonctionnement​

Plateforme API​

Modèles de raisonnement (DeepSeek-R1)​

Modèles de code et DeepSeek-Coder​

Déploiement poids ouverts​

Quand utiliser / Quand NE PAS utiliser​

Comparaisons​

Avantages et inconvénients​

Exemples de code​

Complétion de chat avec DeepSeek-V3 (compatible OpenAI)​

Raisonnement avec DeepSeek-R1 (chaîne de pensée)​

Réponse en streaming avec DeepSeek-V3​

Inférence auto-hébergée avec vLLM​

Ressources pratiques​

Voir aussi​