KI-Sicherheit
Definition
KI-Sicherheit adressiert Risiken fortgeschrittener KI: Missbrauch, unbeabsichtigtes Verhalten und Alignierung (Systeme tun, was wir beabsichtigen). Es umfasst Robustheit, Interpretierbarkeit und Wertealignierung.
Es überschneidet sich mit AI ethics (governance, fairness) and bias in AI (unfair outcomes). For LLMs and agents, alignment (z. B. RLHF, constitutional AI) and guardrails are die wichtigsten levers; explainable AI supports auditing and debugging.
Funktionsweise
Eingabe wird vom Modell verarbeitet, um Ausgabe zu erzeugen. Audit (Tests, Monitoring, Red-Teaming) prüft, ob Ausgaben sicher, ausgerichtet und robust. Research and practice focus on: alignment (RLHF, constitutional AI, scalable oversight) so models follow intent; robustness (adversarisch testing, distribution shift) sodass sie behave under edge cases; monitoring in production to detect misuse or drift. Safety is considered across the lifecycle from Entwurf and data to training, evaluation, und Bereitstellung. Formal methods and interpretability (XAI) support the audit step.
Anwendungsfälle
KI-Sicherheit ist relevant für jedes hochriskante oder öffentlichkeitswirksame System: Ausrichtung, Robustheit und Überwachung von der Konzeption bis zur Bereitstellung.
- Auditierung und Red-Teaming von hochriskanten oder öffentlichkeitswirksamen Modellen
- Ausrichtung und Leitplanken für LLMs und Agenten (z. B. RLHF, constitutional AI)
- Robustheitstests und Überwachung in der Produktion
Externe Dokumentation
- Anthropic – Safety — Research on AI safety and alignment
- OpenAI – Safety and responsibility