Objectif : Rendre les agents sûrs pour la production.
Théorie (15 min) :
- Principaux risques :
- Prompt Injection : Un utilisateur malveillant essaie de modifier le comportement de l'agent
- Data Leakage : L'agent révèle des données confidentielles
- Hallucination : L'agent invente des faits et les présente comme vrais
- Runaway Agent : L'agent fait des actions non désirées (ex : envoyer des emails en masse)
Pratique (45 min) :
- Contre-injection : Tester des injections de prompt et renforcer le system prompt
- Validation des outputs : Vérifier le format de sortie avant d'agir (Pydantic ou regex)
- Confirmation humaine : Ajouter un
input()avant toute action destructrice (email, suppression) - Rate limiting : Limiter le nombre d'actions par heure pour éviter les erreurs en boucle
- Logging : Logger chaque action de l'agent (qui, quoi, quand, résultat)
Checkpoint : Tes agents ont des guardrails de production.