Guida Modelli AI - diShine-digital-agency/ai-prompt-library GitHub Wiki
Confronto completo dei modelli AI coperti nella Prompt Library — prezzi, capacità, latenza, limiti di frequenza e guida alla scelta.
- Claude (Anthropic)
- GPT (OpenAI)
- Gemini (Google)
- Llama (Meta)
- Mistral
- Tabella Comparativa dei Prezzi
- Confronto Benchmark per Compito
- Confronto Latenza
- Limiti di Frequenza
- Albero Decisionale: Quale Modello Usare
- Strategie di Ottimizzazione dei Costi
- Modelli Ritirati
I modelli Claude eccellono nel seguire le istruzioni, nell'analisi di contesti lunghi, nella scrittura creativa e nella programmazione. Rispondono particolarmente bene ai prompt strutturati con tag XML.
| Modello | Contesto | Prezzo Input | Prezzo Output | Ideale Per |
|---|---|---|---|---|
| Opus 4.6 | 1M token | $5.00/M | $25.00/M | Ragionamento profondo, multi-agente, analisi con contesto massivo |
| Sonnet 4.6 | 200K token | $3.00/M | $15.00/M | Modello bilanciato — programmazione, design, lavoro intellettuale |
| Haiku 4.5 | 200K token | $1.00/M | $5.00/M | Risposta veloce, qualità quasi di frontiera, alto volume |
Tag XML — Claude tratta i tag XML come contenitori semantici. Pattern ad alto valore:
<instructions>Primary task definition</instructions>
<context>Background information</context>
<constraints>Hard rules that override other instructions</constraints>
<examples>Input/output examples</examples>Extended Thinking — Disponibile su Opus 4.6, consente al modello di "pensare" attraverso problemi complessi prima di rispondere. Attiva un ragionamento più profondo al costo di maggiore latenza e token.
Tecnica Prefill — Inizia la risposta di Claude per guidare formato e tono:
{
"messages": [
{"role": "user", "content": "Analyze this data..."},
{"role": "assistant", "content": "{\"analysis\":"}
]
}- Opus 4.6 — Quando serve il miglior ragionamento in assoluto, per elaborare documenti oltre 200K token, o per flussi di lavoro multi-agente
- Sonnet 4.6 — Il modello tuttofare — usalo per il 90% dei compiti (programmazione, analisi, scrittura, uso di strumenti)
- Haiku 4.5 — Classificazione ad alto volume, routing, estrazioni rapide, o dove latenza/costo contano di più
I modelli GPT offrono prestazioni eccellenti per uso generale, output strutturati e function calling.
| Modello | Note |
|---|---|
| GPT-5.4 | GPT più capace, modalità "Thinking" disponibile |
| GPT-5.4 Pro | Livello di qualità massima, prezzo premium |
| GPT-5.3 Instant | ChatGPT predefinito — tuttofare veloce per uso quotidiano |
| GPT-5.3-Codex | Modello di programmazione agentico |
| GPT-5.2-Codex | Modello di programmazione generazione precedente |
Modalità JSON — Forza l'output a essere JSON valido:
{
"response_format": { "type": "json_object" }
}Structured Outputs — Definisci uno schema JSON esatto che il modello deve seguire:
{
"response_format": {
"type": "json_schema",
"json_schema": {
"name": "analysis",
"schema": {
"type": "object",
"properties": {
"summary": { "type": "string" },
"score": { "type": "number" }
},
"required": ["summary", "score"]
}
}
}
}Function Calling — Definisci strumenti che il modello può invocare, abilitando un comportamento simile agli agenti con uso strutturato di strumenti.
I modelli Gemini offrono capacità multimodali native, grounding con Google Search ed esecuzione di codice.
| Modello | Note |
|---|---|
| Gemini 3 Pro | Ragionamento di frontiera, multimodale, agentico |
| Gemini 3 Flash | Nuovo predefinito — veloce e capace |
| Gemini 2.5 Pro | $1.25/$10.00 per M token, contesto 1M+ — deprecato giugno 2026 |
| Gemini 2.5 Flash | $0.30/$2.50 per M token, contesto 1M — deprecato giugno 2026 |
Input Multimodale — Supporto nativo per immagini, video e audio nei prompt. Non serve descrivere il contenuto visivo in testo.
Grounding con Google Search — Ancora le risposte ai risultati di ricerca web in tempo reale per informazioni aggiornate.
Esecuzione di Codice — Il modello può eseguire codice come parte della risposta, utile per analisi di dati e compiti computazionali.
Modelli open-weight che puoi ospitare autonomamente. Nessun costo API — paghi solo il calcolo.
| Modello | Parametri | Contesto | Note |
|---|---|---|---|
| Llama 4 Scout | MoE | 10M token | Funziona su singola H100, finestra di contesto 10M |
| Llama 4 Maverick | 400B totali (MoE) | Grande | Supera GPT-4o nei benchmark, open-weight |
| Llama 4 Behemoth | 2T (MoE) | Grande | Solo anteprima, modello teacher |
| Llama 3.3 | 70B (denso) | 128K | Il migliore per il fine-tuning, ecosistema maturo |
| Llama 3.2 | 1B–3B | Varia | Deployment edge/mobile |
- Open-weight — scarica ed esegui sulla tua infrastruttura
- Nessun costo API — solo costi di calcolo (GPU a noleggio o hardware di proprietà)
- Fine-tuning — personalizza per il tuo dominio specifico
- Architettura MoE (Llama 4) — alto numero di parametri con inferenza efficiente
- Privacy — i dati non lasciano mai la tua infrastruttura
- I dati devono restare sulla tua infrastruttura (normative, privacy)
- Inferenza ad alto volume dove i costi API sarebbero proibitivi
- Fine-tuning per domini specializzati
- Deployment edge/mobile (Llama 3.2)
- Ricerca e sperimentazione
Laboratorio di IA europeo che offre una gamma di modelli dal minuscolo al livello di frontiera, con eccellenti rapporti prezzo-prestazioni.
| Modello | Parametri | Note |
|---|---|---|
| Mistral Large 3 | MoE 41B/675B | Punteggio 9.4/10 complessivo, qualità di frontiera |
| Mistral Medium 3 | — | $0.40/$2.00 per M — miglior rapporto qualità-prezzo nella sua classe |
| Codestral | — | 86.6% HumanEval, 80+ linguaggi, contesto 256K |
| Devstral 2 | — | Modello di programmazione agentico |
| Magistral | — | Modello focalizzato sul ragionamento |
| Pixtral | — | Modello con capacità visive |
| Ministral 3 | — | Minuscolo, veloce, deployment edge |
- Miglior rapporto prezzo-prestazioni: Mistral Medium 3 a $0.40/M input offre qualità classe GPT-4 a 1/5 del costo
- Eccellenza multilingue: forte nelle lingue europee e globali
- Architettura MoE: inferenza efficiente con alto numero di parametri
- Specializzazione nel codice: Codestral e Devstral per i flussi di lavoro di sviluppo
- Sovranità dei dati UE: opzioni di hosting europeo
Prezzi per milione di token (aprile 2026):
| Modello | Input | Output | Contesto | Ideale Per |
|---|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 1M | Ragionamento profondo, multi-agente |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | Tuttofare bilanciato |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Alto volume, veloce |
| GPT-5.4 | varia | varia | Grande | GPT più capace |
| GPT-5.3 Instant | medio | medio | Grande | Compiti quotidiani |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M+ | Contesto lungo (deprecato giugno 2026) |
| Gemini 2.5 Flash | $0.30 | $2.50 | 1M | Budget (deprecato giugno 2026) |
| Mistral Medium 3 | $0.40 | $2.00 | Grande | Miglior rapporto qualità-prezzo |
| Llama 4 Maverick | Gratis* | Gratis* | Grande | Self-hosted |
| Llama 4 Scout | Gratis* | Gratis* | 10M | Contesto estremo |
*I modelli Llama sono open-weight — paghi solo il calcolo (hosting/noleggio GPU).
Sconti API Batch:
- OpenAI Batch API: 50% di sconto (turnaround 24h)
- Anthropic Batches API: 50% di sconto (turnaround 24h)
- Google Batch API: varia per modello
Visione pratica delle prestazioni relative per categoria di compito:
| Compito | Livello 1 (Migliore) | Livello 2 | Livello 3 |
|---|---|---|---|
| Ragionamento complesso | Claude Opus 4.6, GPT-5.4 Pro | Gemini 3 Pro, Mistral Large 3 | Llama 4 Maverick, Magistral |
| Generazione codice | Claude Sonnet 4.6, GPT-5.3-Codex | Codestral, Devstral 2 | Gemini 3 Flash, Llama 4 Maverick |
| Seguire istruzioni | Claude Sonnet/Opus 4.6 | GPT-5.4, Gemini 3 Pro | Mistral Large 3 |
| Scrittura creativa | Claude Opus 4.6, GPT-5.4 | Gemini 3 Pro | Mistral Large 3 |
| Estrazione dati | GPT-5.4 (structured outputs) | Claude Sonnet 4.6 | Gemini 3 Flash, Mistral Medium 3 |
| Analisi documenti lunghi | Claude Opus 4.6 (1M), Llama 4 Scout (10M) | Gemini 3 Pro | GPT-5.4 |
| Multilingue | Gemini 3 Pro, Mistral Large 3 | GPT-5.4, Claude 4.6 | Llama 4 |
| Visione (immagini) | Gemini 3 Pro, GPT-5.4 | Claude Sonnet 4.6, Pixtral | Llama 4 Maverick |
| Comprensione video | Gemini 3 Pro (nativo) | GPT-5.4 | Llama 4 Maverick |
| Programmazione agentica | GPT-5.3-Codex, Devstral 2 | Claude Sonnet 4.6 | Codestral |
| Classificazione (volume) | Gemini 3 Flash, Mistral Medium 3 | Claude Haiku 4.5 | Ministral 3, Llama 3.2 |
| Chain-of-thought | GPT-5.4 Thinking, Magistral | Claude Opus 4.6 (extended thinking) | Gemini 3 Pro |
| Sicurezza/rifiuto | Claude (il più prudente) | GPT-5.4 | Gemini, Mistral |
Intervalli approssimativi per richieste tipiche (varia per regione, carico e lunghezza del prompt):
| Fascia del Modello | TTFT (mediana) | Throughput | Esempi |
|---|---|---|---|
| Veloce/economico | ~150–300ms | ~100–150 tok/s | Gemini 3 Flash, Claude Haiku 4.5, Mistral Medium 3, GPT-5.3 Instant |
| Bilanciato | ~300–600ms | ~50–80 tok/s | Claude Sonnet 4.6, GPT-5.4, Gemini 3 Pro, Mistral Large 3 |
| Frontiera/ragionamento | ~500–1000ms | ~30–50 tok/s | Claude Opus 4.6, GPT-5.4 Pro, modalità thinking/reasoning |
| Self-hosted (A100/H100) | ~200–500ms | ~40–100 tok/s | Llama 4 Scout, Llama 3.3 70B |
TTFT = Time To First Token (tempo al primo token). Queste sono mediane approssimative per orientamento, non SLA.
| Provider | Piano Gratuito | Piano a Pagamento (Tipico) | Enterprise |
|---|---|---|---|
| OpenAI | 3 RPM, 200 RPD | 500–10K RPM | Personalizzato |
| Anthropic | 5 RPM, 300 RPD | 1K–4K RPM | Personalizzato |
| 15 RPM, 1500 RPD | 360–1000 RPM | Personalizzato | |
| Mistral | 1 RPM | 100–500 RPM | Personalizzato |
RPM = richieste al minuto, RPD = richieste al giorno. I limiti variano per modello all'interno di ciascun provider.
INIZIO: Qual è il tuo requisito principale?
[I dati devono restare sulla tua infrastruttura?]
SÌ → Llama 3.3 70B (qualità) o Llama 3.2 3B (edge/mobile)
NO → continua
[Elaborazione nativa di video o audio?]
SÌ → Gemini 3 Pro (video/audio nativo)
NO → continua
[Documenti che superano 200K token?]
SÌ → Claude Opus 4.6 (1M) o Llama 4 Scout (10M)
NO → continua
[Serve conformità garantita allo schema JSON?]
SÌ → GPT-5.4 con structured outputs
NO → continua
[Ragionamento complesso o scrittura di testi lunghi?]
SÌ → Claude Sonnet (rapporto qualità-prezzo) o Opus (qualità massima)
NO → continua
[Alto volume, sensibilità al costo (>10K richieste/giorno)?]
SÌ → Quanto è complesso?
Semplice → Gemini Flash o Mistral Medium 3
Moderato → Claude Haiku 4.5
Complesso → Claude Sonnet con batching
NO → continua
[Generazione o revisione del codice?]
SÌ → Claude Sonnet 4.6, GPT-5.3-Codex o Codestral
NO → continua
[Predefinito / uso generale]
Budget → Mistral Medium 3
Qualità → Claude Sonnet 4.6 o GPT-5.4
Massimo → Claude Opus 4.6
Usa un modello economico per classificare la complessità della richiesta, poi indirizza al modello appropriato:
# Classify with a cheap model
classification = cheap_model.classify(
request, categories=["simple", "moderate", "complex"]
)
model_map = {
"simple": "gemini-flash", # lowest cost
"moderate": "claude-haiku", # balanced
"complex": "claude-sonnet", # highest quality
}
model = model_map[classification]response = cheap_model.generate(prompt)
if not passes_quality_check(response):
response = expensive_model.generate(prompt) # escalatetask_routing = {
"classification": "gemini-flash",
"extraction": "mistral-medium",
"summarization": "claude-haiku",
"reasoning": "claude-sonnet",
"code": "codestral",
}Un router ben implementato risparmia il 60–80% rispetto all'invio di tutto al modello più costoso.
Non usare questi modelli in nuovi progetti:
| Modello | Stato |
|---|---|
| GPT-4o | Ritirato |
| GPT-4.1 | Ritirato |
| GPT-4.1 mini | Ritirato |
| GPT-4 Turbo | Ritirato |
| o4-mini | Ritirato |
| Gemini 2.0 Flash | Ritirato |
| Claude 3.5 Haiku | Ritirato |
Navigazione: ← Tecniche di Prompting | Strumenti: Linter, Optimizer, Recommender →