Voice Agents & Multimodal

Objectif — Explorer les agents vocaux et la vision pour des cas d'usage avancés.

Théorie: 15 min
Pratique: 45 min

Objectif : Explorer les agents vocaux et la vision pour des cas d'usage avancés.

Théorie (15 min) :

Vision : Les LLMs modernes (Claude, GPT-4o) peuvent analyser des images
Voice : Agents accessibles par téléphone (Twilio + Whisper + LLM + TTS)
Cas d'usage PME : Analyser des photos de factures, des captures d'écran de bugs, des schémas

Pratique (45 min) :

Vision : Envoyer une image de facture à Claude → Extraire montant, date, fournisseur

import base64
import anthropic

with open("facture.jpg", "rb") as f:
    image_data = base64.standard_b64encode(f.read()).decode("utf-8")

message = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {"type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": image_data}},
            {"type": "text", "text": "Extrais le montant total TTC, la date et le nom du fournisseur en JSON."}
        ]
    }]
)

Traiter 3 factures différentes et mesurer la précision d'extraction
Cas avancé : Analyser une capture d'écran de bug → Diagnostiquer et proposer une solution

Checkpoint : Tu traites des images avec des agents IA.

Heure précédente

H15

Déploiement production

Heure suivante

H17

Cas d'usage réel #3 : Agent d'analyse processus (BA-first)