Guide des modèles IA

Comparaison complète des modèles IA couverts dans la Prompt Library — tarifs, capacités, latence, limites de débit et guide de sélection.

⚠️ Les tarifs et la disponibilité des modèles changent fréquemment. Ce guide reflète les informations d'avril 2026. Vérifiez toujours les tarifs actuels sur la page de tarification de chaque fournisseur avant toute projection de coûts.

Claude (Anthropic)

Les modèles Claude excellent dans le suivi d'instructions, l'analyse de longs contextes, l'écriture créative et le code. Ils répondent particulièrement bien aux prompts structurés utilisant des balises XML.

Modèles actuels

Modèle	Contexte	Prix entrée	Prix sortie	Idéal pour
Opus 4.6	1M tokens	$5.00/M	$25.00/M	Raisonnement approfondi, multi-agent, analyse de contexte massif
Sonnet 4.6	200K tokens	$3.00/M	$15.00/M	Cheval de bataille équilibré — code, conception, travail intellectuel
Haiku 4.5	200K tokens	$1.00/M	$5.00/M	Réponse rapide, qualité proche de la frontière, haut volume

Techniques spécifiques à Claude

Balises XML — Claude traite les balises XML comme des conteneurs sémantiques. Patterns à forte valeur ajoutée :

<instructions>Primary task definition</instructions>
<context>Background information</context>
<constraints>Hard rules that override other instructions</constraints>
<examples>Input/output examples</examples>

Extended Thinking — Disponible sur Opus 4.6, permet au modèle de « réfléchir » en profondeur sur des problèmes complexes avant de répondre. Active un raisonnement plus profond au prix d'une latence et d'un nombre de tokens plus élevés.

Technique Prefill — Démarrez la réponse de Claude pour orienter le format et le ton :

{
  "messages": [
    {"role": "user", "content": "Analyze this data..."},
    {"role": "assistant", "content": "{\"analysis\":"}
  ]
}

Quel Claude choisir

Opus 4.6 — Quand vous avez besoin du meilleur raisonnement possible, du traitement de documents de plus de 200K tokens, ou de workflows multi-agents
Sonnet 4.6 — Le cheval de bataille — à utiliser pour 90 % des tâches (code, analyse, rédaction, utilisation d'outils)
Haiku 4.5 — Classification à haut volume, routage, extractions rapides, ou quand la latence/le coût prime

GPT (OpenAI)

Les modèles GPT offrent de solides performances généralistes, des sorties structurées et l'appel de fonctions.

Modèles actuels

Modèle	Notes
GPT-5.4	GPT le plus capable, mode « Thinking » disponible
GPT-5.4 Pro	Niveau de qualité maximum, tarification premium
GPT-5.3 Instant	ChatGPT par défaut — cheval de bataille rapide au quotidien
GPT-5.3-Codex	Modèle de code agentique
GPT-5.2-Codex	Modèle de code de génération précédente

Techniques spécifiques à GPT

Mode JSON — Forcer la sortie en JSON valide :

{
  "response_format": { "type": "json_object" }
}

Structured Outputs — Définir un schéma JSON exact que le modèle doit suivre :

{
  "response_format": {
    "type": "json_schema",
    "json_schema": {
      "name": "analysis",
      "schema": {
        "type": "object",
        "properties": {
          "summary": { "type": "string" },
          "score": { "type": "number" }
        },
        "required": ["summary", "score"]
      }
    }
  }
}

Function Calling — Définir des outils que le modèle peut invoquer, permettant un comportement de type agent avec une utilisation structurée des outils.

Gemini (Google)

Les modèles Gemini offrent des capacités multimodales natives, l'ancrage via Google Search et l'exécution de code.

Modèles actuels

Modèle	Notes
Gemini 3 Pro	Raisonnement de pointe, multimodal, agentique
Gemini 3 Flash	Nouveau modèle par défaut — rapide, performant
Gemini 2.5 Pro	$1.25/$10.00 par M tokens, contexte 1M+ — déprécié juin 2026
Gemini 2.5 Flash	$0.30/$2.50 par M tokens, contexte 1M — déprécié juin 2026

Techniques spécifiques à Gemini

Entrée multimodale — Prise en charge native des images, vidéos et audio dans les prompts. Pas besoin de décrire le contenu visuel en texte.

Ancrage Google Search — Ancrer les réponses dans les résultats de recherche web en temps réel pour des informations à jour.

Exécution de code — Le modèle peut exécuter du code dans le cadre de sa réponse, utile pour l'analyse de données et les tâches de calcul.

Llama (Meta)

Modèles à poids ouverts que vous pouvez auto-héberger. Aucun coût d'API — vous ne payez que le calcul.

Modèles actuels

Modèle	Paramètres	Contexte	Notes
Llama 4 Scout	MoE	10M tokens	Compatible avec un seul H100, fenêtre de contexte de 10M
Llama 4 Maverick	400B total (MoE)	Grand	Surpasse GPT-4o sur les benchmarks, poids ouverts
Llama 4 Behemoth	2T (MoE)	Grand	Aperçu uniquement, modèle enseignant
Llama 3.3	70B (dense)	128K	Idéal pour le fine-tuning, écosystème mature
Llama 3.2	1B–3B	Variable	Déploiement edge/mobile

Avantages clés

Poids ouverts — téléchargez et exécutez sur votre propre infrastructure
Aucun coût d'API — uniquement les coûts de calcul (location ou possession de GPU)
Fine-tuning — personnalisez pour votre domaine spécifique
Architecture MoE (Llama 4) — nombre élevé de paramètres avec inférence efficace
Confidentialité — les données ne quittent jamais votre infrastructure

Quand choisir Llama

Les données doivent rester sur votre infrastructure (réglementaire, confidentialité)
Inférence à haut volume où les coûts d'API seraient prohibitifs
Fine-tuning pour des domaines spécialisés
Déploiement edge/mobile (Llama 3.2)
Recherche et expérimentation

Mistral

Laboratoire d'IA européen proposant une gamme de modèles du plus petit au plus performant, avec d'excellents ratios prix-performance.

Modèles actuels

Modèle	Paramètres	Notes
Mistral Large 3	MoE 41B/675B	Score 9.4/10 global, qualité de pointe
Mistral Medium 3	—	$0.40/$2.00 par M — meilleur rapport qualité-prix de sa catégorie
Codestral	—	86.6 % HumanEval, 80+ langages, contexte 256K
Devstral 2	—	Modèle de code agentique
Magistral	—	Modèle axé raisonnement
Pixtral	—	Modèle avec capacités visuelles
Ministral 3	—	Minuscule, rapide, déploiement edge

Avantages clés

Meilleur rapport qualité-prix : Mistral Medium 3 à $0.40/M en entrée offre une qualité de classe GPT-4 à 1/5 du coût
Excellence multilingue : performant dans les langues européennes et mondiales
Architecture MoE : inférence efficace avec un nombre élevé de paramètres
Spécialisation code : Codestral et Devstral pour les flux de développement
Souveraineté des données UE : options d'hébergement européen

Tableau comparatif des tarifs

Prix par million de tokens (avril 2026) :

Modèle	Entrée	Sortie	Contexte	Idéal pour
Claude Opus 4.6	$5.00	$25.00	1M	Raisonnement approfondi, multi-agent
Claude Sonnet 4.6	$3.00	$15.00	200K	Cheval de bataille équilibré
Claude Haiku 4.5	$1.00	$5.00	200K	Haut volume, rapide
GPT-5.4	variable	variable	Grand	GPT le plus capable
GPT-5.3 Instant	moyen	moyen	Grand	Tâches quotidiennes
Gemini 2.5 Pro	$1.25	$10.00	1M+	Long contexte (déprécié juin 2026)
Gemini 2.5 Flash	$0.30	$2.50	1M	Économique (déprécié juin 2026)
Mistral Medium 3	$0.40	$2.00	Grand	Meilleur rapport qualité-prix
Llama 4 Maverick	Gratuit*	Gratuit*	Grand	Auto-hébergé
Llama 4 Scout	Gratuit*	Gratuit*	10M	Contexte extrême

*Les modèles Llama sont à poids ouverts — vous ne payez que le calcul (hébergement/location GPU).

Remises API par lots :

OpenAI Batch API : 50 % de réduction (délai 24h)
Anthropic Batches API : 50 % de réduction (délai 24h)
Google Batch API : variable selon le modèle

Comparaison par type de tâche

Vue praticien des performances relatives par catégorie de tâche :

Tâche	Tier 1 (Meilleur)	Tier 2	Tier 3
Raisonnement complexe	Claude Opus 4.6, GPT-5.4 Pro	Gemini 3 Pro, Mistral Large 3	Llama 4 Maverick, Magistral
Génération de code	Claude Sonnet 4.6, GPT-5.3-Codex	Codestral, Devstral 2	Gemini 3 Flash, Llama 4 Maverick
Suivi d'instructions	Claude Sonnet/Opus 4.6	GPT-5.4, Gemini 3 Pro	Mistral Large 3
Écriture créative	Claude Opus 4.6, GPT-5.4	Gemini 3 Pro	Mistral Large 3
Extraction de données	GPT-5.4 (structured outputs)	Claude Sonnet 4.6	Gemini 3 Flash, Mistral Medium 3
Analyse de longs documents	Claude Opus 4.6 (1M), Llama 4 Scout (10M)	Gemini 3 Pro	GPT-5.4
Multilingue	Gemini 3 Pro, Mistral Large 3	GPT-5.4, Claude 4.6	Llama 4
Vision (images)	Gemini 3 Pro, GPT-5.4	Claude Sonnet 4.6, Pixtral	Llama 4 Maverick
Compréhension vidéo	Gemini 3 Pro (natif)	GPT-5.4	Llama 4 Maverick
Code agentique	GPT-5.3-Codex, Devstral 2	Claude Sonnet 4.6	Codestral
Classification (volume)	Gemini 3 Flash, Mistral Medium 3	Claude Haiku 4.5	Ministral 3, Llama 3.2
Chain-of-thought	GPT-5.4 Thinking, Magistral	Claude Opus 4.6 (extended thinking)	Gemini 3 Pro
Sécurité/refus	Claude (le plus prudent)	GPT-5.4	Gemini, Mistral

Comparaison de latence

Plages approximatives pour des requêtes typiques (varie selon la région, la charge et la longueur du prompt) :

Catégorie de modèle	TTFT (médiane)	Débit	Exemples
Rapide/économique	~150–300ms	~100–150 tok/s	Gemini 3 Flash, Claude Haiku 4.5, Mistral Medium 3, GPT-5.3 Instant
Équilibré	~300–600ms	~50–80 tok/s	Claude Sonnet 4.6, GPT-5.4, Gemini 3 Pro, Mistral Large 3
Frontière/raisonnement	~500–1000ms	~30–50 tok/s	Claude Opus 4.6, GPT-5.4 Pro, modes thinking/reasoning
Auto-hébergé (A100/H100)	~200–500ms	~40–100 tok/s	Llama 4 Scout, Llama 3.3 70B

TTFT = Time To First Token (temps jusqu'au premier token). Ce sont des médianes approximatives à titre indicatif, pas des SLA.

Limites de débit

Fournisseur	Niveau gratuit	Niveau payant (typique)	Entreprise
OpenAI	3 RPM, 200 RPD	500–10K RPM	Personnalisé
Anthropic	5 RPM, 300 RPD	1K–4K RPM	Personnalisé
Google	15 RPM, 1500 RPD	360–1000 RPM	Personnalisé
Mistral	1 RPM	100–500 RPM	Personnalisé

RPM = requêtes par minute, RPD = requêtes par jour. Les limites varient selon le modèle au sein de chaque fournisseur.

Arbre de décision : quel modèle utiliser

DÉBUT : Quelle est votre exigence principale ?

[Les données doivent rester sur votre infrastructure ?]
  OUI → Llama 3.3 70B (qualité) ou Llama 3.2 3B (edge/mobile)
  NON → continuer

[Traitement natif de vidéo ou audio ?]
  OUI → Gemini 3 Pro (vidéo/audio natif)
  NON → continuer

[Documents dépassant 200K tokens ?]
  OUI → Claude Opus 4.6 (1M) ou Llama 4 Scout (10M)
  NON → continuer

[Besoin de conformité garantie au schéma JSON ?]
  OUI → GPT-5.4 avec structured outputs
  NON → continuer

[Raisonnement complexe ou rédaction longue ?]
  OUI → Claude Sonnet (rapport qualité-prix) ou Opus (qualité maximale)
  NON → continuer

[Haut volume, sensible aux coûts (>10K req/jour) ?]
  OUI → Quelle complexité ?
    Simple → Gemini Flash ou Mistral Medium 3
    Modérée → Claude Haiku 4.5
    Complexe → Claude Sonnet avec traitement par lots
  NON → continuer

[Génération ou revue de code ?]
  OUI → Claude Sonnet 4.6, GPT-5.3-Codex, ou Codestral
  NON → continuer

[Par défaut / usage général]
  Économique → Mistral Medium 3
  Qualité → Claude Sonnet 4.6 ou GPT-5.4
  Maximum → Claude Opus 4.6

Stratégies d'optimisation des coûts

Pattern 1 : Routage par classification

Utilisez un modèle économique pour classifier la complexité de la requête, puis routez vers le modèle approprié :

# Classify with a cheap model
classification = cheap_model.classify(
    request, categories=["simple", "moderate", "complex"]
)

model_map = {
    "simple":   "gemini-flash",      # lowest cost
    "moderate": "claude-haiku",      # balanced
    "complex":  "claude-sonnet",     # highest quality
}
model = model_map[classification]

Pattern 2 : Cascade (essayer l'économique d'abord)

response = cheap_model.generate(prompt)

if not passes_quality_check(response):
    response = expensive_model.generate(prompt)  # escalate

Pattern 3 : Routage par type de tâche

task_routing = {
    "classification": "gemini-flash",
    "extraction":     "mistral-medium",
    "summarization":  "claude-haiku",
    "reasoning":      "claude-sonnet",
    "code":           "codestral",
}

Économies attendues

Un routeur bien implémenté permet d'économiser 60 à 80 % par rapport à l'envoi de tout au modèle le plus cher.

Modèles retirés

Ne pas utiliser dans les nouveaux projets :

Modèle	Statut
GPT-4o	Retiré
GPT-4.1	Retiré
GPT-4.1 mini	Retiré
GPT-4 Turbo	Retiré
o4-mini	Retiré
Gemini 2.0 Flash	Retiré
Claude 3.5 Haiku	Retiré

Navigation : ← Techniques de prompting | Outils : Linter, Optimiseur, Recommandeur →

Guide Modeles IA - diShine-digital-agency/ai-prompt-library GitHub Wiki

Guide des modèles IA

Table des matières

Claude (Anthropic)

Modèles actuels

Techniques spécifiques à Claude

Quel Claude choisir

GPT (OpenAI)

Modèles actuels

Techniques spécifiques à GPT

Gemini (Google)

Modèles actuels

Techniques spécifiques à Gemini

Llama (Meta)

Modèles actuels

Avantages clés

Quand choisir Llama

Mistral

Modèles actuels

Avantages clés

Tableau comparatif des tarifs

Comparaison par type de tâche

Comparaison de latence

Limites de débit

Arbre de décision : quel modèle utiliser

Stratégies d'optimisation des coûts

Pattern 1 : Routage par classification

Pattern 2 : Cascade (essayer l'économique d'abord)

Pattern 3 : Routage par type de tâche

Économies attendues

Modèles retirés

⚠️ GitHub.com Fallback ⚠️

Guide Modeles IA - diShine-digital-agency/ai-prompt-library GitHub Wiki

Guide des modèles IA

Table des matières

Claude (Anthropic)

Modèles actuels

Techniques spécifiques à Claude

Quel Claude choisir

GPT (OpenAI)

Modèles actuels

Techniques spécifiques à GPT

Gemini (Google)

Modèles actuels

Techniques spécifiques à Gemini

Llama (Meta)

Modèles actuels

Avantages clés

Quand choisir Llama

Mistral

Modèles actuels

Avantages clés

Tableau comparatif des tarifs

Comparaison par type de tâche

Comparaison de latence

Limites de débit

Arbre de décision : quel modèle utiliser

Stratégies d'optimisation des coûts

Pattern 1 : Routage par classification

Pattern 2 : Cascade (essayer l'économique d'abord)

Pattern 3 : Routage par type de tâche

Économies attendues

Modèles retirés

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️