AI CODING BENCHMARK TRACKER · AGG. APR 2026
AI Coding Benchmarks
Modello puro vs agente · Proprietario vs open weight · Dati da leaderboard pubblici
SWE-bench Verified500 GitHub issues curati — gold standard per il coding reale
fonte: swebench.com · marc0.dev/leaderboard · vals.aiBEST AGENTE PROP.
88.7%
GPT-5.5 (Spud)
BEST AGENTE OPEN
80.6%
DeepSeek V4-Pro
BEST DIRETTO
43%
prop. (stima)
BOOST AGENTE
+45.7pp
vantaggio scaffolding
◉ MODELLO DIRETTO
Singola inferenza. Nessun tool, nessun loop. Misura ragionamento puro. HumanEval e LiveCodeBench usano questo approccio.
▶ AGENTE CUSTOM
Modello + scaffolding proprietario (Claude Code, Codex Agent…). Il lab ottimizza il framework sul proprio modello. Vantaggio tipico: +30–50pp su SWE-bench.
◆ AGENTE OPEN
Modello + framework open (OpenHands, mini-SWE-agent, Agentless…). Base più equa per confronti cross-modello.
PROGRESSIONE STORICA — PUNTEGGIO MASSIMO PER CATEGORIA
Agente proprietario
Agente open weight
DELAY OPEN → PRIVATO — SWE-BENCH VERIFIED
Mesi che passano prima che l'open weight raggiunga
lo stesso score che il privato aveva in precedenza.
lo stesso score che il privato aveva in precedenza.
MEDIA
4.4 m
INIZIO
3.9 m
ORA
6.2 m
TREND
+2.3 m
sotto la media (open recupera)
sopra la media (private allunga)
METODO: per ogni punto open, interpolazione lineare sullo storico private per trovare quando il private aveva raggiunto quello score. Dati SWE-bench Verified (agente). Punti direct_* esclusi (dati parziali).
CLASSIFICA — SWE-BENCH VERIFIED
PESO
SISTEMA
AREA
DATI: swebench.com · marc0.dev/leaderboard · vals.ai · llm-stats.com · live-code-bench.github.io
I punteggi "Diretto" su SWE-bench sono stime — i lab pubblicano quasi esclusivamente risultati agentici.
Aggiornato: Aprile 2026
I punteggi "Diretto" su SWE-bench sono stime — i lab pubblicano quasi esclusivamente risultati agentici.
Aggiornato: Aprile 2026