DeepSeek

Definition

DeepSeek ist ein chinesisches KI-Forschungslabor und eine kommerzielle Plattform, die international erhebliche Aufmerksamkeit erlangt hat, indem sie Modelle produziert, die mit den besten proprietären Modellen konkurrenzfähig sind, die Gewichte offen veröffentlicht und zu einem Bruchteil der Kosten betrieben werden. DeepSeek wurde 2023 als Tochtergesellschaft von High-Flyer (einem quantitativen Hedgefonds) gegründet und zeichnet sich durch rigorose Forschung zur Trainingseffizienz aus — einschließlich Innovationen in Mixture-of-Experts (MoE)-Architekturen, Reinforcement Learning from Human Feedback und neuartigen Ansätzen zum Reasoning, die nicht auf massive Rechenbudgets angewiesen sind.

Die Modellpalette umfasst drei Hauptfähigkeitsbereiche. DeepSeek-V3 ist ein Allzweck-Chat- und Instruktionsfolgemodell, das GPT-4o und Claude 3.5 Sonnet auf Standard-Benchmarks annähernd erreicht, während es über die API dramatisch günstiger zugänglich ist. DeepSeek-R1 ist ein dediziertes Reasoning-Modell, das erweitertes Chain-of-Thought (CoT) verwendet — das Modell generiert explizite Reasoning-Traces vor der endgültigen Antwort — was es besonders stark in Mathematik, logischer Deduktion und mehrstufiger Problemlösung macht. DeepSeek-Coder (und seine Nachfolgervarianten, die in V3/R1 integriert sind) spezialisiert sich auf Code-Generierung, -Vervollständigung und Debugging in einer Vielzahl von Programmiersprachen.

DeepSeeks Open-Weights-Ansatz bedeutet, dass alle wichtigen Modelle auf Hugging Face unter permissiven Lizenzen verfügbar sind und auf eigener Infrastruktur selbst gehostet werden können — eine kritische Fähigkeit für Organisationen mit Datensouveränitätsanforderungen oder solche, die API-Kosten pro Token bei großem Volumen vermeiden möchten. Die DeepSeek-Plattform stellt auch eine API bereit, die wire-kompatibel mit dem OpenAI-API-Format ist, was bedeutet, dass jede mit dem OpenAI-Python-SDK erstellte Anwendung durch Änderung der base_url und des API-Schlüssels ohne sonstige Codeänderungen auf DeepSeek-Modelle umstellen kann.

Funktionsweise

API-Plattform

DeepSeek hostet eine Cloud-Inferenz-API unter api.deepseek.com, die Anfragen im OpenAI-Chat-Completions-Format akzeptiert. Diese Kompatibilitätsschicht bedeutet, dass der Integrationsaufwand minimal ist — mit dem OpenAI-SDK vertraute Entwickler können DeepSeek-Modelle in Minuten migrieren oder testen. Die Plattform unterstützt Streaming-Antworten, Funktionsaufruf und System-Prompts. Die Preise sind tokenbasiert und öffentlich gelistet, mit Tarifen, die typischerweise 90–95% niedriger als gleichwertige OpenAI-Modelle sind, was hochvolumige Produktionsbereitstellungen erheblich günstiger macht.

Reasoning-Modelle (DeepSeek-R1)

DeepSeek-R1 wird mit einem mehrstufigen Prozess trainiert, der Reinforcement Learning einsetzt, um das Modell für die Produktion korrekter endgültiger Antworten zu belohnen — entscheidend, ohne auf überwachte Chain-of-Thought-Daten in der Kerntrain-Phase zu setzen. Das Modell generiert einen <think>-Block mit seinem Reasoning-Trace vor der endgültigen Antwort. Dieser explizite Notizblock ermöglicht es dem Modell, mehrstufige Deduktion durchzuführen, seine Arbeit zu überprüfen und von falschen Pfaden zurückzukehren — Verhaltensweisen, die die Leistung bei Mathematik-Olympiade-Problemen, formaler Logik und komplexen Codierungsaufgaben, die eine Planung über viele Schritte erfordern, dramatisch verbessern.

Code-Modelle und DeepSeek-Coder

DeepSeeks code-spezialisierte Modelle werden auf großen Korpora von Quellcode (GitHub, Wettbewerbsprogrammierungsplattformen, Dokumentation) vortrainiert und für das Befolgen von Codierungsaufgaben feinabgestimmt. Sie unterstützen Fill-in-the-Middle (FIM)-Vervollständigung, das Standardformat für IDE-Autovervollständigungs-Tools wie Copilot. DeepSeek-Coder erzielt Top-Leistungen auf HumanEval, MBPP und SWE-bench und übertrifft häufig Modelle, die von anderen Anbietern mehrfach größer sind. Die Codierungsfähigkeiten sind auch in DeepSeek-V3 und R1 integriert, sodass Allzweckmodelle auch bei Code-Aufgaben gut abschneiden.

Open-Weights-Bereitstellung

Alle wichtigen DeepSeek-Modelle haben ihre Gewichte auf Hugging Face unter permissiven Lizenzen veröffentlicht, was selbst gehostete Inferenz auf Consumer- oder Enterprise-GPU-Hardware ermöglicht. DeepSeek-V3 verwendet eine Mixture-of-Experts-Architektur, bei der nur eine Teilmenge der Parameter pro Token aktiviert wird, was die Inferenzkosten im Vergleich zu dichten Modellen vergleichbarer Leistungsfähigkeit erheblich reduziert. Beliebte Bereitstellungsoptionen sind vLLM, Ollama (für quantisierte Versionen) und NVIDIA NIM-Container. Die selbst gehostete Bereitstellung ist besonders attraktiv für groß angelegte Batch-Workloads, Feinabstimmung auf proprietären Daten oder Szenarien, in denen alle Daten On-Premises bleiben müssen.

Wann verwenden / Wann NICHT verwenden

Verwenden wenn	Vermeiden wenn
Kosten eine primäre Einschränkung sind — DeepSeek-API ist 90%+ günstiger als GPT-4o bei vergleichbarer Qualität	Sie einen Anbieter mit etabliertem Enterprise-SLA, Compliance-Zertifizierungen (SOC 2, HIPAA) oder US-basierter Datenverarbeitung benötigen
Aufgaben tiefes mehrstufiges Reasoning erfordern: Mathematik, Logik, formale Beweise, komplexe Codierung	Ihre Aufgabe primär multimodal ist — DeepSeek-V3/R1 sind nur-Text-Modelle
Sie Open-Weight-Modelle für Datensouveränität oder benutzerdefinierte Feinabstimmung selbst hosten möchten	Sie das breitestmögliche Plugin-/Tool-Ökosystem und Drittanbieter-Integrationen benötigen
Hochvolumige Batch-Pipelines aufgebaut werden, bei denen sich die Reduzierung der Pro-Token-Kosten erheblich ansammelt	Latenz-kritische Consumer-Anwendungen, bei denen R1s Reasoning-Trace die Antwortzeit verlängert
Code-Generierung, Code-Review oder Debugging Ihre primären Anwendungsfälle sind	Sie sich in einer Jurisdiktion mit regulatorischen Anforderungen bezüglich der Herkunft von KI-Modellen befinden

Vergleiche

Kriterium	DeepSeek (V3 / R1)	OpenAI (GPT-4o / o1)	Meta / Llama
Reasoning-Leistung	R1 konkurrenzfähig mit o1 bei Mathematik-/Logik-Benchmarks	o1 ist erstklassig; GPT-4o stark beim allgemeinen Reasoning	Llama 3.x konkurrenzfähig, aber unterhalb R1/o1 bei hartem Reasoning
Allgemeine Chat-Qualität	V3 konkurrenzfähig mit GPT-4o	GPT-4o beste allgemeine Qualität	Llama 3.3 70B konkurrenzfähig für seine Größe
Open Weights	Ja (alle Modelle auf Hugging Face)	Nein (nur proprietär)	Ja (Meta Open-Sources Llama)
API-Kosten	Sehr niedrig (~$0,27/M Eingabe-Token für V3)	Hoch (~$2,50/M für GPT-4o-Eingabe)	Kostenlos (selbst gehostet); Fireworks/Together API erschwinglich
Ökosystem & Integrationen	Wachsend; OpenAI-kompatible API erleichtert Adoption	Größtes Ökosystem, meiste Integrationen	Großes Open-Source-Ökosystem
Datensouveränität	Selbst-Host möglich; API-Daten in China verarbeitet	Azure OpenAI für US-Regionsverarbeitung	Vollständiges Selbst-Hosting möglich
Multimodal	Nur Text (V3/R1)	Ja (GPT-4o, DALL-E)	Llama 3.2 hat Vision-Fähigkeiten

Vor- und Nachteile

Vorteile	Nachteile
Dramatisch niedrigere API-Kosten als OpenAI/Anthropic	API-Daten werden über chinesische Server geleitet — Bedenken für einige regulierte Branchen
R1 liefert frontier-level Reasoning-Leistung	R1-Reasoning-Traces fügen Latenz und Token-Nutzung hinzu
OpenAI-kompatible API — nahezu null Wechselkosten	Geringere Vertrauens-/Markenbekanntheit in westlichen Enterprise-Verkaufszyklen
Open Weights ermöglichen Self-Hosting und Feinabstimmung	V3/R1 sind nur-Text; keine nativen Bild- oder Audiofähigkeiten
Starke Code-Generierung in den meisten gängigen Programmiersprachen	Community und Dokumentation primär auf Chinesisch; englische Ressourcen holen noch auf

Codebeispiele

Chat-Vervollständigung mit DeepSeek-V3 (OpenAI-kompatibel)

from openai import OpenAI

# DeepSeek uses the OpenAI SDK with a custom base_url
client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-chat",  # maps to DeepSeek-V3
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Explain the difference between MoE and dense transformer architectures."},
    ],
    temperature=0.7,
    max_tokens=1024,
)

print(response.choices[0].message.content)

Reasoning mit DeepSeek-R1 (Chain-of-Thought)

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-reasoner",  # maps to DeepSeek-R1
    messages=[
        {
            "role": "user",
            "content": (
                "A train leaves City A at 08:00 and travels at 120 km/h. "
                "Another train leaves City B (300 km away) at 09:00 and travels "
                "toward City A at 80 km/h. At what time do they meet?"
            ),
        }
    ],
)

# R1 exposes the reasoning trace in reasoning_content
message = response.choices[0].message
if hasattr(message, "reasoning_content") and message.reasoning_content:
    print("=== Reasoning trace ===")
    print(message.reasoning_content)
    print()

print("=== Final answer ===")
print(message.content)

Streaming-Antwort mit DeepSeek-V3

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com",
)

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "user", "content": "Write a Python function that implements binary search."},
    ],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta
    if delta.content:
        print(delta.content, end="", flush=True)
print()

Selbst gehostete Inferenz mit vLLM

# Start vLLM server (run in terminal):
# vllm serve deepseek-ai/DeepSeek-V3 --tensor-parallel-size 4 --port 8000

from openai import OpenAI

# Point to your local vLLM server instead of DeepSeek cloud
client = OpenAI(
    api_key="not-needed",  # vLLM does not require a real key
    base_url="http://localhost:8000/v1",
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V3",
    messages=[
        {"role": "user", "content": "Summarize the key advantages of mixture-of-experts models."},
    ],
)

print(response.choices[0].message.content)

Praktische Ressourcen

DeepSeek-API-Dokumentation — Offizielle Referenz für die DeepSeek-Plattform-API einschließlich Modellen, Parametern und Preisen
DeepSeek GitHub — Open-Source-Repositories für DeepSeek-Modelle, Trainingscode und Forschungsarbeiten
DeepSeek-R1 auf Hugging Face — Modellkarte mit Gewichten, Benchmark-Ergebnissen und Bereitstellungsanweisungen
DeepSeek-V3 technischer Bericht — Forschungsarbeit zur V3-Architektur, Trainingsansatz und Benchmark-Vergleichen
vLLM DeepSeek Bereitstellungsleitfaden — Anweisungen für das Selbst-Hosten von DeepSeek-Modellen mit vLLM für Produktionsinferenz

Definition​

Funktionsweise​

API-Plattform​

Reasoning-Modelle (DeepSeek-R1)​

Code-Modelle und DeepSeek-Coder​

Open-Weights-Bereitstellung​

Wann verwenden / Wann NICHT verwenden​

Vergleiche​

Vor- und Nachteile​

Codebeispiele​

Chat-Vervollständigung mit DeepSeek-V3 (OpenAI-kompatibel)​

Reasoning mit DeepSeek-R1 (Chain-of-Thought)​

Streaming-Antwort mit DeepSeek-V3​

Selbst gehostete Inferenz mit vLLM​

Praktische Ressourcen​

Siehe auch​