Zum Hauptinhalt springen

DeepSeek

Definition

DeepSeek ist ein chinesisches KI-Forschungslabor und eine kommerzielle Plattform, die international erhebliche Aufmerksamkeit erlangt hat, indem sie Modelle produziert, die mit den besten proprietären Modellen konkurrenzfähig sind, die Gewichte offen veröffentlicht und zu einem Bruchteil der Kosten betrieben werden. DeepSeek wurde 2023 als Tochtergesellschaft von High-Flyer (einem quantitativen Hedgefonds) gegründet und zeichnet sich durch rigorose Forschung zur Trainingseffizienz aus — einschließlich Innovationen in Mixture-of-Experts (MoE)-Architekturen, Reinforcement Learning from Human Feedback und neuartigen Ansätzen zum Reasoning, die nicht auf massive Rechenbudgets angewiesen sind.

Die Modellpalette umfasst drei Hauptfähigkeitsbereiche. DeepSeek-V3 ist ein Allzweck-Chat- und Instruktionsfolgemodell, das GPT-4o und Claude 3.5 Sonnet auf Standard-Benchmarks annähernd erreicht, während es über die API dramatisch günstiger zugänglich ist. DeepSeek-R1 ist ein dediziertes Reasoning-Modell, das erweitertes Chain-of-Thought (CoT) verwendet — das Modell generiert explizite Reasoning-Traces vor der endgültigen Antwort — was es besonders stark in Mathematik, logischer Deduktion und mehrstufiger Problemlösung macht. DeepSeek-Coder (und seine Nachfolgervarianten, die in V3/R1 integriert sind) spezialisiert sich auf Code-Generierung, -Vervollständigung und Debugging in einer Vielzahl von Programmiersprachen.

DeepSeeks Open-Weights-Ansatz bedeutet, dass alle wichtigen Modelle auf Hugging Face unter permissiven Lizenzen verfügbar sind und auf eigener Infrastruktur selbst gehostet werden können — eine kritische Fähigkeit für Organisationen mit Datensouveränitätsanforderungen oder solche, die API-Kosten pro Token bei großem Volumen vermeiden möchten. Die DeepSeek-Plattform stellt auch eine API bereit, die wire-kompatibel mit dem OpenAI-API-Format ist, was bedeutet, dass jede mit dem OpenAI-Python-SDK erstellte Anwendung durch Änderung der base_url und des API-Schlüssels ohne sonstige Codeänderungen auf DeepSeek-Modelle umstellen kann.

Funktionsweise

API-Plattform

DeepSeek hostet eine Cloud-Inferenz-API unter api.deepseek.com, die Anfragen im OpenAI-Chat-Completions-Format akzeptiert. Diese Kompatibilitätsschicht bedeutet, dass der Integrationsaufwand minimal ist — mit dem OpenAI-SDK vertraute Entwickler können DeepSeek-Modelle in Minuten migrieren oder testen. Die Plattform unterstützt Streaming-Antworten, Funktionsaufruf und System-Prompts. Die Preise sind tokenbasiert und öffentlich gelistet, mit Tarifen, die typischerweise 90–95% niedriger als gleichwertige OpenAI-Modelle sind, was hochvolumige Produktionsbereitstellungen erheblich günstiger macht.

Reasoning-Modelle (DeepSeek-R1)

DeepSeek-R1 wird mit einem mehrstufigen Prozess trainiert, der Reinforcement Learning einsetzt, um das Modell für die Produktion korrekter endgültiger Antworten zu belohnen — entscheidend, ohne auf überwachte Chain-of-Thought-Daten in der Kerntrain-Phase zu setzen. Das Modell generiert einen <think>-Block mit seinem Reasoning-Trace vor der endgültigen Antwort. Dieser explizite Notizblock ermöglicht es dem Modell, mehrstufige Deduktion durchzuführen, seine Arbeit zu überprüfen und von falschen Pfaden zurückzukehren — Verhaltensweisen, die die Leistung bei Mathematik-Olympiade-Problemen, formaler Logik und komplexen Codierungsaufgaben, die eine Planung über viele Schritte erfordern, dramatisch verbessern.

Code-Modelle und DeepSeek-Coder

DeepSeeks code-spezialisierte Modelle werden auf großen Korpora von Quellcode (GitHub, Wettbewerbsprogrammierungsplattformen, Dokumentation) vortrainiert und für das Befolgen von Codierungsaufgaben feinabgestimmt. Sie unterstützen Fill-in-the-Middle (FIM)-Vervollständigung, das Standardformat für IDE-Autovervollständigungs-Tools wie Copilot. DeepSeek-Coder erzielt Top-Leistungen auf HumanEval, MBPP und SWE-bench und übertrifft häufig Modelle, die von anderen Anbietern mehrfach größer sind. Die Codierungsfähigkeiten sind auch in DeepSeek-V3 und R1 integriert, sodass Allzweckmodelle auch bei Code-Aufgaben gut abschneiden.

Open-Weights-Bereitstellung

Alle wichtigen DeepSeek-Modelle haben ihre Gewichte auf Hugging Face unter permissiven Lizenzen veröffentlicht, was selbst gehostete Inferenz auf Consumer- oder Enterprise-GPU-Hardware ermöglicht. DeepSeek-V3 verwendet eine Mixture-of-Experts-Architektur, bei der nur eine Teilmenge der Parameter pro Token aktiviert wird, was die Inferenzkosten im Vergleich zu dichten Modellen vergleichbarer Leistungsfähigkeit erheblich reduziert. Beliebte Bereitstellungsoptionen sind vLLM, Ollama (für quantisierte Versionen) und NVIDIA NIM-Container. Die selbst gehostete Bereitstellung ist besonders attraktiv für groß angelegte Batch-Workloads, Feinabstimmung auf proprietären Daten oder Szenarien, in denen alle Daten On-Premises bleiben müssen.

Wann verwenden / Wann NICHT verwenden

Verwenden wennVermeiden wenn
Kosten eine primäre Einschränkung sind — DeepSeek-API ist 90%+ günstiger als GPT-4o bei vergleichbarer QualitätSie einen Anbieter mit etabliertem Enterprise-SLA, Compliance-Zertifizierungen (SOC 2, HIPAA) oder US-basierter Datenverarbeitung benötigen
Aufgaben tiefes mehrstufiges Reasoning erfordern: Mathematik, Logik, formale Beweise, komplexe CodierungIhre Aufgabe primär multimodal ist — DeepSeek-V3/R1 sind nur-Text-Modelle
Sie Open-Weight-Modelle für Datensouveränität oder benutzerdefinierte Feinabstimmung selbst hosten möchtenSie das breitestmögliche Plugin-/Tool-Ökosystem und Drittanbieter-Integrationen benötigen
Hochvolumige Batch-Pipelines aufgebaut werden, bei denen sich die Reduzierung der Pro-Token-Kosten erheblich ansammeltLatenz-kritische Consumer-Anwendungen, bei denen R1s Reasoning-Trace die Antwortzeit verlängert
Code-Generierung, Code-Review oder Debugging Ihre primären Anwendungsfälle sindSie sich in einer Jurisdiktion mit regulatorischen Anforderungen bezüglich der Herkunft von KI-Modellen befinden

Vergleiche

KriteriumDeepSeek (V3 / R1)OpenAI (GPT-4o / o1)Meta / Llama
Reasoning-LeistungR1 konkurrenzfähig mit o1 bei Mathematik-/Logik-Benchmarkso1 ist erstklassig; GPT-4o stark beim allgemeinen ReasoningLlama 3.x konkurrenzfähig, aber unterhalb R1/o1 bei hartem Reasoning
Allgemeine Chat-QualitätV3 konkurrenzfähig mit GPT-4oGPT-4o beste allgemeine QualitätLlama 3.3 70B konkurrenzfähig für seine Größe
Open WeightsJa (alle Modelle auf Hugging Face)Nein (nur proprietär)Ja (Meta Open-Sources Llama)
API-KostenSehr niedrig (~$0,27/M Eingabe-Token für V3)Hoch (~$2,50/M für GPT-4o-Eingabe)Kostenlos (selbst gehostet); Fireworks/Together API erschwinglich
Ökosystem & IntegrationenWachsend; OpenAI-kompatible API erleichtert AdoptionGrößtes Ökosystem, meiste IntegrationenGroßes Open-Source-Ökosystem
DatensouveränitätSelbst-Host möglich; API-Daten in China verarbeitetAzure OpenAI für US-RegionsverarbeitungVollständiges Selbst-Hosting möglich
MultimodalNur Text (V3/R1)Ja (GPT-4o, DALL-E)Llama 3.2 hat Vision-Fähigkeiten

Vor- und Nachteile

VorteileNachteile
Dramatisch niedrigere API-Kosten als OpenAI/AnthropicAPI-Daten werden über chinesische Server geleitet — Bedenken für einige regulierte Branchen
R1 liefert frontier-level Reasoning-LeistungR1-Reasoning-Traces fügen Latenz und Token-Nutzung hinzu
OpenAI-kompatible API — nahezu null WechselkostenGeringere Vertrauens-/Markenbekanntheit in westlichen Enterprise-Verkaufszyklen
Open Weights ermöglichen Self-Hosting und FeinabstimmungV3/R1 sind nur-Text; keine nativen Bild- oder Audiofähigkeiten
Starke Code-Generierung in den meisten gängigen ProgrammiersprachenCommunity und Dokumentation primär auf Chinesisch; englische Ressourcen holen noch auf

Codebeispiele

Chat-Vervollständigung mit DeepSeek-V3 (OpenAI-kompatibel)

from openai import OpenAI

# DeepSeek uses the OpenAI SDK with a custom base_url
client = OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
model="deepseek-chat", # maps to DeepSeek-V3
messages=[
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Explain the difference between MoE and dense transformer architectures."},
],
temperature=0.7,
max_tokens=1024,
)

print(response.choices[0].message.content)

Reasoning mit DeepSeek-R1 (Chain-of-Thought)

from openai import OpenAI

client = OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
model="deepseek-reasoner", # maps to DeepSeek-R1
messages=[
{
"role": "user",
"content": (
"A train leaves City A at 08:00 and travels at 120 km/h. "
"Another train leaves City B (300 km away) at 09:00 and travels "
"toward City A at 80 km/h. At what time do they meet?"
),
}
],
)

# R1 exposes the reasoning trace in reasoning_content
message = response.choices[0].message
if hasattr(message, "reasoning_content") and message.reasoning_content:
print("=== Reasoning trace ===")
print(message.reasoning_content)
print()

print("=== Final answer ===")
print(message.content)

Streaming-Antwort mit DeepSeek-V3

from openai import OpenAI

client = OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com",
)

stream = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "user", "content": "Write a Python function that implements binary search."},
],
stream=True,
)

for chunk in stream:
delta = chunk.choices[0].delta
if delta.content:
print(delta.content, end="", flush=True)
print()

Selbst gehostete Inferenz mit vLLM

# Start vLLM server (run in terminal):
# vllm serve deepseek-ai/DeepSeek-V3 --tensor-parallel-size 4 --port 8000

from openai import OpenAI

# Point to your local vLLM server instead of DeepSeek cloud
client = OpenAI(
api_key="not-needed", # vLLM does not require a real key
base_url="http://localhost:8000/v1",
)

response = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3",
messages=[
{"role": "user", "content": "Summarize the key advantages of mixture-of-experts models."},
],
)

print(response.choices[0].message.content)

Praktische Ressourcen

Siehe auch