Objectif : Explorer les agents vocaux et la vision pour des cas d'usage avancés.
Théorie (15 min) :
- Vision : Les LLMs modernes (Claude, GPT-4o) peuvent analyser des images
- Voice : Agents accessibles par téléphone (Twilio + Whisper + LLM + TTS)
- Cas d'usage PME : Analyser des photos de factures, des captures d'écran de bugs, des schémas
Pratique (45 min) :
- Vision : Envoyer une image de facture à Claude → Extraire montant, date, fournisseur
import base64
import anthropic
with open("facture.jpg", "rb") as f:
image_data = base64.standard_b64encode(f.read()).decode("utf-8")
message = client.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {"type": "base64", "media_type": "image/jpeg", "data": image_data}},
{"type": "text", "text": "Extrais le montant total TTC, la date et le nom du fournisseur en JSON."}
]
}]
)
- Traiter 3 factures différentes et mesurer la précision d'extraction
- Cas avancé : Analyser une capture d'écran de bug → Diagnostiquer et proposer une solution
Checkpoint : Tu traites des images avec des agents IA.