Seleziona un periodo e vedi quali modelli dominavano i benchmark in quel momento. Dati da provider ufficiali, Vellum Leaderboard e LXT AI.
Domande di livello PhD in biologia, fisica, chimica. Non esperti: ~34%. Umani esperti: ~65%. Sopra 85% = supera la maggior parte dei dottorandi.
Risoluzione di issue reali su repository GitHub. Il benchmark più realistico per valutare l'AI come strumento di sviluppo.
AIME: matematica competitiva universitaria. GSM8K: problemi di matematica scolastica — ora completamente saturato dai modelli frontier.
Evoluzione dei punteggi GPQA Diamond dal 2024 ad oggi per i modelli principali. Il progresso è stato rapido e costante.