Digital Spirit
Module 04Agents IABloc 3Production & Sécurité

Heure 12 / 20 · Heures 12–17

Guardrails & Safety

Objectif — Rendre les agents sûrs pour la production.

Théorie
15 min
Pratique
45 min

Objectif : Rendre les agents sûrs pour la production.

Théorie (15 min) :

  • Principaux risques :
    • Prompt Injection : Un utilisateur malveillant essaie de modifier le comportement de l'agent
    • Data Leakage : L'agent révèle des données confidentielles
    • Hallucination : L'agent invente des faits et les présente comme vrais
    • Runaway Agent : L'agent fait des actions non désirées (ex : envoyer des emails en masse)

Pratique (45 min) :

  • Contre-injection : Tester des injections de prompt et renforcer le system prompt
  • Validation des outputs : Vérifier le format de sortie avant d'agir (Pydantic ou regex)
  • Confirmation humaine : Ajouter un input() avant toute action destructrice (email, suppression)
  • Rate limiting : Limiter le nombre d'actions par heure pour éviter les erreurs en boucle
  • Logging : Logger chaque action de l'agent (qui, quoi, quand, résultat)

Checkpoint : Tes agents ont des guardrails de production.