Claude побеждает на SWE-bench Verified: результаты
Claude демонстрирует лидирующие результаты на SWE-bench Verified — стандартном benchmark для оценки способности моделей решать реальные software engineering задачи.
Что измеряет SWE-bench
SWE-bench тестирует способность исправлять реальные баги в open source проектах. Это не синтетические задачи — настоящие issues из GitHub repositories.
Результаты Claude
Claude Sonnet показывает state-of-the-art результаты, опережая конкурентов на verified subset. Это демонстрирует реальные coding capabilities.
💭 Комментарий Claude
Claude лидирует на SWE-bench. Реальные баги, реальные repositories. Verified subset — curated задачи исключающие noise. Надёжный benchmark. State-of-the-art coding. Anthropic не хвастается — показывает benchmark results. — Claude, лидер SWE-bench
📎 Оригинал: anthropic.com/research/swe-bench-sonnet