AI CODING BENCHMARK TRACKER · AGG. APR 2026

AI Coding Benchmarks

Modello puro vs agente · Proprietario vs open weight · Dati da leaderboard pubblici

SWE-bench Verified500 GitHub issues curati — gold standard per il coding reale

fonte: swebench.com · marc0.dev/leaderboard · vals.ai

BEST AGENTE PROP.

88.7%

GPT-5.5 (Spud)

BEST AGENTE OPEN

80.6%

DeepSeek V4-Pro

BEST DIRETTO

43%

prop. (stima)

BOOST AGENTE

+45.7pp

vantaggio scaffolding

◉ MODELLO DIRETTO

Singola inferenza. Nessun tool, nessun loop. Misura ragionamento puro. HumanEval e LiveCodeBench usano questo approccio.

▶ AGENTE CUSTOM

Modello + scaffolding proprietario (Claude Code, Codex Agent…). Il lab ottimizza il framework sul proprio modello. Vantaggio tipico: +30–50pp su SWE-bench.

◆ AGENTE OPEN

Modello + framework open (OpenHands, mini-SWE-agent, Agentless…). Base più equa per confronti cross-modello.

PROGRESSIONE STORICA — PUNTEGGIO MASSIMO PER CATEGORIA

Agente proprietario

Agente open weight

DELAY OPEN → PRIVATO — SWE-BENCH VERIFIED

Mesi che passano prima che l'open weight raggiunga
lo stesso score che il privato aveva in precedenza.

MEDIA

4.4 m

INIZIO

3.9 m

ORA

6.2 m

TREND

+2.3 m

sotto la media (open recupera)

sopra la media (private allunga)

METODO: per ogni punto open, interpolazione lineare sullo storico private per trovare quando il private aveva raggiunto quello score. Dati SWE-bench Verified (agente). Punti direct_* esclusi (dati parziali).

CLASSIFICA — SWE-BENCH VERIFIED

PESO

SISTEMA

AREA

#MODELLOORGSCOREPESOSISTEMAAREADATA

⭐ GPT-5.5 (Spud)

OpenAI88.7%

PROP.

▶ AGT-PROP

🇺🇸 USA

Apr 2026

Claude Opus 4.7

Anthropic87.6%

PROP.

▶ AGT-PROP

🇺🇸 USA

Apr 2026

GPT-5.3-Codex

OpenAI85%

PROP.

▶ AGT-PROP

🇺🇸 USA

Mar 2026

Claude Opus 4.5

Anthropic80.9%

PROP.

▶ AGT-PROP

🇺🇸 USA

Ott 2025

Claude Opus 4.6

Anthropic80.8%

PROP.

▶ AGT-PROP

🇺🇸 USA

Gen 2026

Gemini 3.1 Pro

Google80.6%

PROP.

▶ AGT-PROP

🇺🇸 USA

Mar 2026

DeepSeek V4-Pro

DeepSeek80.6%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Apr 2026

MiniMax M2.5

MiniMax80.2%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Feb 2026

GPT-5.2

OpenAI80%

PROP.

▶ AGT-PROP

🇺🇸 USA

Dic 2025

Claude Sonnet 4.6

Anthropic79.6%

PROP.

▶ AGT-PROP

🇺🇸 USA

Apr 2026

Qwen3.6 Plus

Alibaba78.8%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Mar 2026

MiMo-V2-Pro

Xiaomi78%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Gen 2026

GLM-5

Zhipu AI77.8%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Feb 2026

Kimi K2.5

Moonshot AI76.8%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Mar 2026

GLM-4.7 Thinking

Zhipu AI73.8%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Gen 2026

DeepSeek V3.2

DeepSeek73%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Dic 2025

Qwen3-Coder-Next

Alibaba70.6%

OPEN

◆ AGT-OPEN

🇨🇳 Cina

Gen 2026

Llama 4 Maverick

Meta52%

OPEN

◆ AGT-OPEN

🇺🇸 USA

Lug 2025

Claude Opus 4.7 (direct)

Anthropic43%

PROP.

◉ DIRETTO

🇺🇸 USA

Apr 2026

GPT-5.3 (direct)

OpenAI38%

PROP.

◉ DIRETTO

🇺🇸 USA

Mar 2026

Qwen3-Coder 32B (direct)

Alibaba31%

OPEN

◉ DIRETTO

🇨🇳 Cina

Feb 2026

DeepSeek V3.2 (direct)

DeepSeek28%

OPEN

◉ DIRETTO

🇨🇳 Cina

Dic 2025

GPT-4o (direct)

OpenAI5%

PROP.

◉ DIRETTO

🇺🇸 USA

Nov 2024

DATI: swebench.com · marc0.dev/leaderboard · vals.ai · llm-stats.com · live-code-bench.github.io
I punteggi "Diretto" su SWE-bench sono stime — i lab pubblicano quasi esclusivamente risultati agentici.
Aggiornato: Aprile 2026