AI CODING BENCHMARK TRACKER · AGG. APR 2026

AI Coding Benchmarks

Modello puro vs agente · Proprietario vs open weight · Dati da leaderboard pubblici

SWE-bench Verified500 GitHub issues curati — gold standard per il coding reale
fonte: swebench.com · marc0.dev/leaderboard · vals.ai
BEST AGENTE PROP.
88.7%
GPT-5.5 (Spud)
BEST AGENTE OPEN
80.6%
DeepSeek V4-Pro
BEST DIRETTO
43%
prop. (stima)
BOOST AGENTE
+45.7pp
vantaggio scaffolding
MODELLO DIRETTO
Singola inferenza. Nessun tool, nessun loop. Misura ragionamento puro. HumanEval e LiveCodeBench usano questo approccio.
AGENTE CUSTOM
Modello + scaffolding proprietario (Claude Code, Codex Agent…). Il lab ottimizza il framework sul proprio modello. Vantaggio tipico: +30–50pp su SWE-bench.
AGENTE OPEN
Modello + framework open (OpenHands, mini-SWE-agent, Agentless…). Base più equa per confronti cross-modello.
PROGRESSIONE STORICA — PUNTEGGIO MASSIMO PER CATEGORIA
Agente proprietario
Agente open weight
DELAY OPEN → PRIVATO — SWE-BENCH VERIFIED
Mesi che passano prima che l'open weight raggiungalo stesso score che il privato aveva in precedenza.
MEDIA
4.4 m
INIZIO
3.9 m
ORA
6.2 m
TREND
+2.3 m
sotto la media (open recupera)
sopra la media (private allunga)
METODO: per ogni punto open, interpolazione lineare sullo storico private per trovare quando il private aveva raggiunto quello score. Dati SWE-bench Verified (agente). Punti direct_* esclusi (dati parziali).
CLASSIFICA — SWE-BENCH VERIFIED
PESO
SISTEMA
AREA
#MODELLOORGSCOREPESOSISTEMAAREADATA
1
GPT-5.5 (Spud)
OpenAI88.7%
PROP.
AGT-PROP
🇺🇸 USA
Apr 2026
2
Claude Opus 4.7
Anthropic87.6%
PROP.
AGT-PROP
🇺🇸 USA
Apr 2026
3
GPT-5.3-Codex
OpenAI85%
PROP.
AGT-PROP
🇺🇸 USA
Mar 2026
4
Claude Opus 4.5
Anthropic80.9%
PROP.
AGT-PROP
🇺🇸 USA
Ott 2025
5
Claude Opus 4.6
Anthropic80.8%
PROP.
AGT-PROP
🇺🇸 USA
Gen 2026
6
Gemini 3.1 Pro
Google80.6%
PROP.
AGT-PROP
🇺🇸 USA
Mar 2026
7
DeepSeek V4-Pro
DeepSeek80.6%
OPEN
AGT-OPEN
🇨🇳 Cina
Apr 2026
8
MiniMax M2.5
MiniMax80.2%
OPEN
AGT-OPEN
🇨🇳 Cina
Feb 2026
9
GPT-5.2
OpenAI80%
PROP.
AGT-PROP
🇺🇸 USA
Dic 2025
10
Claude Sonnet 4.6
Anthropic79.6%
PROP.
AGT-PROP
🇺🇸 USA
Apr 2026
11
Qwen3.6 Plus
Alibaba78.8%
OPEN
AGT-OPEN
🇨🇳 Cina
Mar 2026
12
MiMo-V2-Pro
Xiaomi78%
OPEN
AGT-OPEN
🇨🇳 Cina
Gen 2026
13
GLM-5
Zhipu AI77.8%
OPEN
AGT-OPEN
🇨🇳 Cina
Feb 2026
14
Kimi K2.5
Moonshot AI76.8%
OPEN
AGT-OPEN
🇨🇳 Cina
Mar 2026
15
GLM-4.7 Thinking
Zhipu AI73.8%
OPEN
AGT-OPEN
🇨🇳 Cina
Gen 2026
16
DeepSeek V3.2
DeepSeek73%
OPEN
AGT-OPEN
🇨🇳 Cina
Dic 2025
17
Qwen3-Coder-Next
Alibaba70.6%
OPEN
AGT-OPEN
🇨🇳 Cina
Gen 2026
18
Llama 4 Maverick
Meta52%
OPEN
AGT-OPEN
🇺🇸 USA
Lug 2025
19
Claude Opus 4.7 (direct)
Anthropic43%
PROP.
DIRETTO
🇺🇸 USA
Apr 2026
20
GPT-5.3 (direct)
OpenAI38%
PROP.
DIRETTO
🇺🇸 USA
Mar 2026
21
Qwen3-Coder 32B (direct)
Alibaba31%
OPEN
DIRETTO
🇨🇳 Cina
Feb 2026
22
DeepSeek V3.2 (direct)
DeepSeek28%
OPEN
DIRETTO
🇨🇳 Cina
Dic 2025
23
GPT-4o (direct)
OpenAI5%
PROP.
DIRETTO
🇺🇸 USA
Nov 2024
DATI: swebench.com · marc0.dev/leaderboard · vals.ai · llm-stats.com · live-code-bench.github.io
I punteggi "Diretto" su SWE-bench sono stime — i lab pubblicano quasi esclusivamente risultati agentici.
Aggiornato: Aprile 2026