Digital Spirit
Module 04Agents IABloc 3Production & Sécurité

Heure 16 / 20 · Heures 12–17

Voice Agents & Multimodal

Objectif — Explorer les agents vocaux et la vision pour des cas d'usage avancés.

Théorie
15 min
Pratique
45 min

Objectif : Explorer les agents vocaux et la vision pour des cas d'usage avancés.

Théorie (15 min) :

  • Vision : Les LLMs modernes (Claude, GPT-4o) peuvent analyser des images
  • Voice : Agents accessibles par téléphone (Twilio + Whisper + LLM + TTS)
  • Cas d'usage PME : Analyser des photos de factures, des captures d'écran de bugs, des schémas

Pratique (45 min) :

  • Vision : Envoyer une image de facture à Claude → Extraire montant, date, fournisseur
import base64
import anthropic

with open("facture.jpg", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

message = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {"type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": image_data}},
            {"type": "text", "text": "Extrais le montant total TTC, la date et le nom du fournisseur en JSON."}
        ]
    }]
)
  • Traiter 3 factures différentes et mesurer la précision d'extraction
  • Cas avancé : Analyser une capture d'écran de bug → Diagnostiquer et proposer une solution

Checkpoint : Tu traites des images avec des agents IA.