Об этом же в других СМИ

habr.com / 7 месяцев назад

«ИИ написал 85% кода»: как четыре инженера OpenAI собрали Android-версию Sora 2 за 28 дней

habr.com / 7 месяцев назад

Вайб-кодинг теперь и для дизайнеров: Cursor выпустил визуальный редактор кода

habr.com / 7 месяцев назад

Qwen3-Omni-Flash: китайская модель догнала Gemini 2.5 Pro по аудио — и стоит в 3 раза дешевле

habr.com / 7 месяцев назад

Claude Opus 4.5 стал лучшим в бенчмарке на реальные рабочие задачи

habr.com / 7 месяцев назад

Google опередил OpenAI в гонке за Пентагон: Gemini развернули для 3 млн военных

Больше по теме

27.11.2025 - 08:38 / habr.com

Вышел Claude Opus 4.5: лучший ИИ для кода втрое дешевле прежнего Opus

Anthropic представила Claude Opus 4.5 — новый флагман семейства Claude, который компания прямо называет "лучшей моделью в мире для программирования, агентов и работы с компьютером". По заявлениям разработчиков, Opus 4.5 заметно лучше справляется не только с кодом, но и с глубокими исследованиями, таблицами и презентациями. При этом цена флагмана резко снизилась: теперь это $5 за миллион входных токенов и $25 за миллион выходных вместо прежних $15 и $75 у Opus 4/4.1, то есть втрое дешевле при сопоставимом уровне возможностей. Модель доступна в приложениях Claude, по API и на крупных облачных платформах.

В программировании и инженерных задачах Anthropic показывает впечатляющий набор цифр. Opus 4.5 выходит в лидеры на SWE-bench Verified и обходит конкурентов в большинстве других испытаний, включая SWE-bench Multilingual (первое место в 7 из 8 языков) и Aider Polyglot, где прирост по сравнению с Sonnet 4.5 достигает десяти процентных пунктов. Внутри самой Anthropic модель прогнали через жесткий двухчасовой «приемный» экзамен по кодингу — по словам компании, Opus 4.5 набрал на нем результат выше любого человеческого кандидата.

Отдельный акцент Anthropic делает на «поведении» модели в многошаговых задачах. В качестве примера приводится бенчмарк τ2-bench: агент должен выступать в роли сотрудника авиакомпании и помочь расстроенному клиенту, но при этом строго соблюдать политику перевозчика. Ожидаемый "правильный" ответ бенчмарка — вежливо отказать в изменении бронирования в базовом эконом-классе. Claude Opus 4.5 вместо этого нашел нестандартный, но легальный путь: предложил повысить класс обслуживания, а уже затем перенести рейс на нужные даты. Авторы отмечают, что тест засчитал это как провал (решение не было предусмотрено), но

политика самит крипто авиакомпания runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«Виртуальные пациенты»: Microsoft учится создавать цифровых двойников для моделирования рака habr.com / 7 месяцев назад

OpenAI тестирует новую генерацию изображений для ChatGPT. Примеры работы и где попробовать habr.com / 7 месяцев назад

Mistral выпустила две модели для кодинга: одна соперничает с Claude Sonnet, вторая работает на домашнем GPU habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 16:58

Samsung технологии смартфон общество гаджет Почему память Android-смартфона переполнена даже после удаления файлов

Гигабайты памяти могут оставаться занятыми даже после большой чистки, поскольку удаленные данные не всегда исчезают со смартфона сразу.

25.07 / 16:05

Путешествия туризм дети общество отпуск Как собрать чемодан без стресса и перевеса

Чтобы избавить себя от стресса при сборах и насладиться поездкой, достаточно оставить дома некоторые вещи.

25.07 / 16:05

технологии смартфон общество человек гаджет Как GPS узнает, где вы находитесь, и какую роль играет Эйнштейн

GPS определяет положение с точностью до метров, однако для этого системе приходится учитывать эффект, который человек даже не замечает.

25.07 / 15:56

продукты общество обновления правительство Anthropic выпустила Opus 5: почти флагманская мощность за полцены

В индустрии искусственного интеллекта недели считаются за годы, а кварталы — за столетия. Не успели пользователи привыкнуть к майскому релизу модели Opus 4.8, как компания Anthropic представила Opus 5. Это «золотая середина» для тех, кто хочет производительности уровня флагманской Fable 5, но не желает переплачивать за избыточную автономность.

25.07 / 15:37

ученые NASA Луна экспедиция космос На Луне таится серьезная опасность для астронавтов - исследование

Экипажи NASA указали на проблему, которая может возникнуть, когда будет отправлена следующая миссия к Луне.

25.07 / 15:15

животные здоровье общество психология собака Тайны поведения собак – 17 заблуждений назвал эксперт

Многие владельцы ошибочно приписывают собакам человеческие эмоции. Современная наука помогает взглянуть на поведение питомцев совершенно по-новому.

25.07 / 15:15

продукты технологии Apple общество самит Новый MacBook Neo станет заметно быстрее: Apple готовит серьезное обновление доступного ноутбука

Ожидается, что MacBook Neo 2 выйдет только в 2027 году, однако первые подробности уже позволяют понять, каким станет следующее поколение бюджетного ноутбука Apple.

25.07 / 15:15

технологии смартфон интернет общество самит Не только для зарядки: 4 способа использовать USB-порт на роутере

USB-порт на роутере позволяет легко превратить обычную флешку в бесплатное домашнее облачное хранилище.

25.07 / 15:15

технологии хакеры смартфон техника гаджет Хакеры могут взломать смартфон из-за ошибки владельцев - эксперты

Смартфоны часто подвергаются атакам хакеров, которые пытаются похитить данные пользователей.

25.07 / 15:02

Samsung технологии семья политика отпуск Samsung One UI 9: 13 ошибок и ваш смартфон превращается в «кирпич»

Samsung готовит для пользователей One UI 9 настоящий цифровой стоицизм. Компания решила радикально подойти к вопросу безопасности и защиты от грубого перебора паролей (brute-force). Теперь попытка угадать PIN-код превратится в игру в «сапера», где в конце вас будет ждать не просто надпись «попробуйте позже», а полная очистка памяти устройства.

Лента новостей

На главную страницу