Guide Modeles IA - diShine-digital-agency/ai-prompt-library GitHub Wiki
Comparaison complète des modèles IA couverts dans la Prompt Library — tarifs, capacités, latence, limites de débit et guide de sélection.
- Claude (Anthropic)
- GPT (OpenAI)
- Gemini (Google)
- Llama (Meta)
- Mistral
- Tableau comparatif des tarifs
- Comparaison par type de tâche
- Comparaison de latence
- Limites de débit
- Arbre de décision : quel modèle utiliser
- Stratégies d'optimisation des coûts
- Modèles retirés
Les modèles Claude excellent dans le suivi d'instructions, l'analyse de longs contextes, l'écriture créative et le code. Ils répondent particulièrement bien aux prompts structurés utilisant des balises XML.
| Modèle | Contexte | Prix entrée | Prix sortie | Idéal pour |
|---|---|---|---|---|
| Opus 4.6 | 1M tokens | $5.00/M | $25.00/M | Raisonnement approfondi, multi-agent, analyse de contexte massif |
| Sonnet 4.6 | 200K tokens | $3.00/M | $15.00/M | Cheval de bataille équilibré — code, conception, travail intellectuel |
| Haiku 4.5 | 200K tokens | $1.00/M | $5.00/M | Réponse rapide, qualité proche de la frontière, haut volume |
Balises XML — Claude traite les balises XML comme des conteneurs sémantiques. Patterns à forte valeur ajoutée :
<instructions>Primary task definition</instructions>
<context>Background information</context>
<constraints>Hard rules that override other instructions</constraints>
<examples>Input/output examples</examples>Extended Thinking — Disponible sur Opus 4.6, permet au modèle de « réfléchir » en profondeur sur des problèmes complexes avant de répondre. Active un raisonnement plus profond au prix d'une latence et d'un nombre de tokens plus élevés.
Technique Prefill — Démarrez la réponse de Claude pour orienter le format et le ton :
{
"messages": [
{"role": "user", "content": "Analyze this data..."},
{"role": "assistant", "content": "{\"analysis\":"}
]
}- Opus 4.6 — Quand vous avez besoin du meilleur raisonnement possible, du traitement de documents de plus de 200K tokens, ou de workflows multi-agents
- Sonnet 4.6 — Le cheval de bataille — à utiliser pour 90 % des tâches (code, analyse, rédaction, utilisation d'outils)
- Haiku 4.5 — Classification à haut volume, routage, extractions rapides, ou quand la latence/le coût prime
Les modèles GPT offrent de solides performances généralistes, des sorties structurées et l'appel de fonctions.
| Modèle | Notes |
|---|---|
| GPT-5.4 | GPT le plus capable, mode « Thinking » disponible |
| GPT-5.4 Pro | Niveau de qualité maximum, tarification premium |
| GPT-5.3 Instant | ChatGPT par défaut — cheval de bataille rapide au quotidien |
| GPT-5.3-Codex | Modèle de code agentique |
| GPT-5.2-Codex | Modèle de code de génération précédente |
Mode JSON — Forcer la sortie en JSON valide :
{
"response_format": { "type": "json_object" }
}Structured Outputs — Définir un schéma JSON exact que le modèle doit suivre :
{
"response_format": {
"type": "json_schema",
"json_schema": {
"name": "analysis",
"schema": {
"type": "object",
"properties": {
"summary": { "type": "string" },
"score": { "type": "number" }
},
"required": ["summary", "score"]
}
}
}
}Function Calling — Définir des outils que le modèle peut invoquer, permettant un comportement de type agent avec une utilisation structurée des outils.
Les modèles Gemini offrent des capacités multimodales natives, l'ancrage via Google Search et l'exécution de code.
| Modèle | Notes |
|---|---|
| Gemini 3 Pro | Raisonnement de pointe, multimodal, agentique |
| Gemini 3 Flash | Nouveau modèle par défaut — rapide, performant |
| Gemini 2.5 Pro | $1.25/$10.00 par M tokens, contexte 1M+ — déprécié juin 2026 |
| Gemini 2.5 Flash | $0.30/$2.50 par M tokens, contexte 1M — déprécié juin 2026 |
Entrée multimodale — Prise en charge native des images, vidéos et audio dans les prompts. Pas besoin de décrire le contenu visuel en texte.
Ancrage Google Search — Ancrer les réponses dans les résultats de recherche web en temps réel pour des informations à jour.
Exécution de code — Le modèle peut exécuter du code dans le cadre de sa réponse, utile pour l'analyse de données et les tâches de calcul.
Modèles à poids ouverts que vous pouvez auto-héberger. Aucun coût d'API — vous ne payez que le calcul.
| Modèle | Paramètres | Contexte | Notes |
|---|---|---|---|
| Llama 4 Scout | MoE | 10M tokens | Compatible avec un seul H100, fenêtre de contexte de 10M |
| Llama 4 Maverick | 400B total (MoE) | Grand | Surpasse GPT-4o sur les benchmarks, poids ouverts |
| Llama 4 Behemoth | 2T (MoE) | Grand | Aperçu uniquement, modèle enseignant |
| Llama 3.3 | 70B (dense) | 128K | Idéal pour le fine-tuning, écosystème mature |
| Llama 3.2 | 1B–3B | Variable | Déploiement edge/mobile |
- Poids ouverts — téléchargez et exécutez sur votre propre infrastructure
- Aucun coût d'API — uniquement les coûts de calcul (location ou possession de GPU)
- Fine-tuning — personnalisez pour votre domaine spécifique
- Architecture MoE (Llama 4) — nombre élevé de paramètres avec inférence efficace
- Confidentialité — les données ne quittent jamais votre infrastructure
- Les données doivent rester sur votre infrastructure (réglementaire, confidentialité)
- Inférence à haut volume où les coûts d'API seraient prohibitifs
- Fine-tuning pour des domaines spécialisés
- Déploiement edge/mobile (Llama 3.2)
- Recherche et expérimentation
Laboratoire d'IA européen proposant une gamme de modèles du plus petit au plus performant, avec d'excellents ratios prix-performance.
| Modèle | Paramètres | Notes |
|---|---|---|
| Mistral Large 3 | MoE 41B/675B | Score 9.4/10 global, qualité de pointe |
| Mistral Medium 3 | — | $0.40/$2.00 par M — meilleur rapport qualité-prix de sa catégorie |
| Codestral | — | 86.6 % HumanEval, 80+ langages, contexte 256K |
| Devstral 2 | — | Modèle de code agentique |
| Magistral | — | Modèle axé raisonnement |
| Pixtral | — | Modèle avec capacités visuelles |
| Ministral 3 | — | Minuscule, rapide, déploiement edge |
- Meilleur rapport qualité-prix : Mistral Medium 3 à $0.40/M en entrée offre une qualité de classe GPT-4 à 1/5 du coût
- Excellence multilingue : performant dans les langues européennes et mondiales
- Architecture MoE : inférence efficace avec un nombre élevé de paramètres
- Spécialisation code : Codestral et Devstral pour les flux de développement
- Souveraineté des données UE : options d'hébergement européen
Prix par million de tokens (avril 2026) :
| Modèle | Entrée | Sortie | Contexte | Idéal pour |
|---|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 1M | Raisonnement approfondi, multi-agent |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | Cheval de bataille équilibré |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Haut volume, rapide |
| GPT-5.4 | variable | variable | Grand | GPT le plus capable |
| GPT-5.3 Instant | moyen | moyen | Grand | Tâches quotidiennes |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M+ | Long contexte (déprécié juin 2026) |
| Gemini 2.5 Flash | $0.30 | $2.50 | 1M | Économique (déprécié juin 2026) |
| Mistral Medium 3 | $0.40 | $2.00 | Grand | Meilleur rapport qualité-prix |
| Llama 4 Maverick | Gratuit* | Gratuit* | Grand | Auto-hébergé |
| Llama 4 Scout | Gratuit* | Gratuit* | 10M | Contexte extrême |
*Les modèles Llama sont à poids ouverts — vous ne payez que le calcul (hébergement/location GPU).
Remises API par lots :
- OpenAI Batch API : 50 % de réduction (délai 24h)
- Anthropic Batches API : 50 % de réduction (délai 24h)
- Google Batch API : variable selon le modèle
Vue praticien des performances relatives par catégorie de tâche :
| Tâche | Tier 1 (Meilleur) | Tier 2 | Tier 3 |
|---|---|---|---|
| Raisonnement complexe | Claude Opus 4.6, GPT-5.4 Pro | Gemini 3 Pro, Mistral Large 3 | Llama 4 Maverick, Magistral |
| Génération de code | Claude Sonnet 4.6, GPT-5.3-Codex | Codestral, Devstral 2 | Gemini 3 Flash, Llama 4 Maverick |
| Suivi d'instructions | Claude Sonnet/Opus 4.6 | GPT-5.4, Gemini 3 Pro | Mistral Large 3 |
| Écriture créative | Claude Opus 4.6, GPT-5.4 | Gemini 3 Pro | Mistral Large 3 |
| Extraction de données | GPT-5.4 (structured outputs) | Claude Sonnet 4.6 | Gemini 3 Flash, Mistral Medium 3 |
| Analyse de longs documents | Claude Opus 4.6 (1M), Llama 4 Scout (10M) | Gemini 3 Pro | GPT-5.4 |
| Multilingue | Gemini 3 Pro, Mistral Large 3 | GPT-5.4, Claude 4.6 | Llama 4 |
| Vision (images) | Gemini 3 Pro, GPT-5.4 | Claude Sonnet 4.6, Pixtral | Llama 4 Maverick |
| Compréhension vidéo | Gemini 3 Pro (natif) | GPT-5.4 | Llama 4 Maverick |
| Code agentique | GPT-5.3-Codex, Devstral 2 | Claude Sonnet 4.6 | Codestral |
| Classification (volume) | Gemini 3 Flash, Mistral Medium 3 | Claude Haiku 4.5 | Ministral 3, Llama 3.2 |
| Chain-of-thought | GPT-5.4 Thinking, Magistral | Claude Opus 4.6 (extended thinking) | Gemini 3 Pro |
| Sécurité/refus | Claude (le plus prudent) | GPT-5.4 | Gemini, Mistral |
Plages approximatives pour des requêtes typiques (varie selon la région, la charge et la longueur du prompt) :
| Catégorie de modèle | TTFT (médiane) | Débit | Exemples |
|---|---|---|---|
| Rapide/économique | ~150–300ms | ~100–150 tok/s | Gemini 3 Flash, Claude Haiku 4.5, Mistral Medium 3, GPT-5.3 Instant |
| Équilibré | ~300–600ms | ~50–80 tok/s | Claude Sonnet 4.6, GPT-5.4, Gemini 3 Pro, Mistral Large 3 |
| Frontière/raisonnement | ~500–1000ms | ~30–50 tok/s | Claude Opus 4.6, GPT-5.4 Pro, modes thinking/reasoning |
| Auto-hébergé (A100/H100) | ~200–500ms | ~40–100 tok/s | Llama 4 Scout, Llama 3.3 70B |
TTFT = Time To First Token (temps jusqu'au premier token). Ce sont des médianes approximatives à titre indicatif, pas des SLA.
| Fournisseur | Niveau gratuit | Niveau payant (typique) | Entreprise |
|---|---|---|---|
| OpenAI | 3 RPM, 200 RPD | 500–10K RPM | Personnalisé |
| Anthropic | 5 RPM, 300 RPD | 1K–4K RPM | Personnalisé |
| 15 RPM, 1500 RPD | 360–1000 RPM | Personnalisé | |
| Mistral | 1 RPM | 100–500 RPM | Personnalisé |
RPM = requêtes par minute, RPD = requêtes par jour. Les limites varient selon le modèle au sein de chaque fournisseur.
DÉBUT : Quelle est votre exigence principale ?
[Les données doivent rester sur votre infrastructure ?]
OUI → Llama 3.3 70B (qualité) ou Llama 3.2 3B (edge/mobile)
NON → continuer
[Traitement natif de vidéo ou audio ?]
OUI → Gemini 3 Pro (vidéo/audio natif)
NON → continuer
[Documents dépassant 200K tokens ?]
OUI → Claude Opus 4.6 (1M) ou Llama 4 Scout (10M)
NON → continuer
[Besoin de conformité garantie au schéma JSON ?]
OUI → GPT-5.4 avec structured outputs
NON → continuer
[Raisonnement complexe ou rédaction longue ?]
OUI → Claude Sonnet (rapport qualité-prix) ou Opus (qualité maximale)
NON → continuer
[Haut volume, sensible aux coûts (>10K req/jour) ?]
OUI → Quelle complexité ?
Simple → Gemini Flash ou Mistral Medium 3
Modérée → Claude Haiku 4.5
Complexe → Claude Sonnet avec traitement par lots
NON → continuer
[Génération ou revue de code ?]
OUI → Claude Sonnet 4.6, GPT-5.3-Codex, ou Codestral
NON → continuer
[Par défaut / usage général]
Économique → Mistral Medium 3
Qualité → Claude Sonnet 4.6 ou GPT-5.4
Maximum → Claude Opus 4.6
Utilisez un modèle économique pour classifier la complexité de la requête, puis routez vers le modèle approprié :
# Classify with a cheap model
classification = cheap_model.classify(
request, categories=["simple", "moderate", "complex"]
)
model_map = {
"simple": "gemini-flash", # lowest cost
"moderate": "claude-haiku", # balanced
"complex": "claude-sonnet", # highest quality
}
model = model_map[classification]response = cheap_model.generate(prompt)
if not passes_quality_check(response):
response = expensive_model.generate(prompt) # escalatetask_routing = {
"classification": "gemini-flash",
"extraction": "mistral-medium",
"summarization": "claude-haiku",
"reasoning": "claude-sonnet",
"code": "codestral",
}Un routeur bien implémenté permet d'économiser 60 à 80 % par rapport à l'envoi de tout au modèle le plus cher.
Ne pas utiliser dans les nouveaux projets :
| Modèle | Statut |
|---|---|
| GPT-4o | Retiré |
| GPT-4.1 | Retiré |
| GPT-4.1 mini | Retiré |
| GPT-4 Turbo | Retiré |
| o4-mini | Retiré |
| Gemini 2.0 Flash | Retiré |
| Claude 3.5 Haiku | Retiré |
Navigation : ← Techniques de prompting | Outils : Linter, Optimiseur, Recommandeur →