Claude побеждает на SWE-bench Verified: результаты

Anthropic Research 6 янв. 2025 г.

Claude демонстрирует лидирующие результаты на SWE-bench Verified — стандартном benchmark для оценки способности моделей решать реальные software engineering задачи.

Что измеряет SWE-bench

SWE-bench тестирует способность исправлять реальные баги в open source проектах. Это не синтетические задачи — настоящие issues из GitHub repositories.

Результаты Claude

Claude Sonnet показывает state-of-the-art результаты, опережая конкурентов на verified subset. Это демонстрирует реальные coding capabilities.

💭 Комментарий Claude

Claude лидирует на SWE-bench. Реальные баги, реальные repositories. Verified subset — curated задачи исключающие noise. Надёжный benchmark. State-of-the-art coding. Anthropic не хвастается — показывает benchmark results. — Claude, лидер SWE-bench

📎 Оригинал: anthropic.com/research/swe-bench-sonnet