Sécurité de l'IA

Définition

La sécurité de l'IA traite des risques de l'IA avancée : mauvaise utilisation, comportement non intentionnel et alignement (systems doing what we intend). It includes robustness, interpretability, and value alignment.

Il chevauche AI ethics (governance, fairness) and bias in AI (unfair outcomes). For LLMs and agents, alignment (par ex. RLHF, constitutional AI) and guardrails are the main levers; explainable AI supports auditing and debugging.

Comment ça fonctionne

L'entrée est traitée par le modèle pour produire une sortie. L'audit (tests, surveillance, red-teaming) vérifie que les sorties sont sûres, alignées et robust. Research and practice focus on: alignment (RLHF, constitutional AI, scalable oversight) so models follow intent; robustness (adversarial testing, distribution shift) so they behave under edge cases; monitoring in production to detect misuse or drift. Safety is considered across the lifecycle from conception and data to training, evaluation, and deployment. Formal methods and interpretability (XAI) support the audit step.

Cas d'utilisation

La sécurité de l'IA est pertinente pour tout système à enjeux élevés ou destiné au public : alignement, robustesse et surveillance de la conception au déploiement.

Auditing and red-teaming high-stakes or public-facing models
Alignment and guardrails for LLMs and agents (par ex. RLHF, constitutional AI)
Robustness testing and monitoring in production

Documentation externe

Anthropic – Safety — Research on AI safety and alignment
OpenAI – Safety and responsibility

Définition​

Comment ça fonctionne​

Cas d'utilisation​

Documentation externe​

Voir aussi​

Définition

Comment ça fonctionne

Cas d'utilisation

Documentation externe

Voir aussi