Anthropic представили Claude Opus 4.5: лучшую в мире модель для кодинга и агентов
Anthropic выпустили Claude Opus 4.5 — новую флагманскую модель, которая, по словам компании, стала их самым мощным релизом и вышла в лидеры на задачах реального программирования, агентных сценариев и продуктивной работы с компьютером. Модель также заметно улучшилась в задачах глубокого ресёрча, аналитики и работе с Excel/презентациями.
Opus 4.5 уже доступен в приложениях, через API и во всех трёх крупных облаках. Цена снижена до $5 / $25 за миллион токенов (ввод/вывод), что делает модель сильно доступнее.
На SWE-bench Verified новая модель показывает лучший результат среди всех frontier-моделей — Anthropic отдельно подчёркивает, что Opus 4.5 стал значимым шагом вперёд по сравнению с Sonnet 4.5, преодолев задачи, которые ещё несколько недель назад считались «почти невозможными» для предыдущего поколения.
Кроме того:
Opus 4.5 лидирует в 7 из 8 языков программирования на SWE-bench Multilingual.
Улучшения касаются не только кода — модель получила заметный буст в зрении, математике, рассуждении и мультимодальных задачах.
На Aider Polyglot, BrowseComp-Plus, Vending-Bench — также показатели SOTA или близкие к нему.
Одним из примеров улучшений стал кейс из τ²-bench: модель должна была отказать в изменении билета класса эконом. Вместо этого Opus придумал нетривиальный, но полностью легитимный путь — сначала апгрейдить класс билета, а затем изменить рейс, что для этой категории уже разрешено. Бенчмарк посчитал это «ошибкой», но команда отметила это как пример креативного, почти «инженерного» мышления.
По утверждению команды, Opus 4.5 — самая надёжно выровненнная (aligned) и защищённая от prompt injection модель Anthropic. В ряде тестов на устойчивость к атакующим запросам она опередила всех конкурентов.
Кроме того:
Внутренний «экзамен для
Читать на habr.com
