Storico benchmark AI 2024 – 2026

Come sono cambiati
i modelli AI

Seleziona un periodo e vedi quali modelli dominavano i benchmark in quel momento. Dati da provider ufficiali, Vellum Leaderboard e LXT AI.

◆ Seleziona il periodo
Marzo 2026 — GPT-5.x, Claude Opus/Sonnet 4.6, Gemini 3.x si contendono il primato. I benchmark più difficili come HLE e ARC-AGI-2 sono ancora lontani dalla saturazione.
GPQA Diamond

Ragionamento scientifico avanzato

Domande di livello PhD in biologia, fisica, chimica. Non esperti: ~34%. Umani esperti: ~65%. Sopra 85% = supera la maggior parte dei dottorandi.

SWE-bench Verified

Coding agente — bug reali su GitHub

Risoluzione di issue reali su repository GitHub. Il benchmark più realistico per valutare l'AI come strumento di sviluppo.

AIME 2025 / GSM8K

Matematica — da scolastica a competitiva

AIME: matematica competitiva universitaria. GSM8K: problemi di matematica scolastica — ora completamente saturato dai modelli frontier.

Trend storico — GPQA Diamond

Come è cresciuto il ragionamento AI

Evoluzione dei punteggi GPQA Diamond dal 2024 ad oggi per i modelli principali. Il progresso è stato rapido e costante.

Cosa racconta questo grafico: In meno di 2 anni i punteggi GPQA sono passati da ~70% (GPT-4o, giugno 2024) a oltre 94% (Gemini 3.1 Pro, 2026). Il livello umano esperto (~65%) è stato superato da tutti i modelli frontier già a fine 2024. Oggi i benchmark più duri come HLE diventano il nuovo riferimento.
Panoramica per periodo

Tutti i modelli — Q1 2026