Об этом же в других СМИ

habr.com / 6 месяцев назад

OpenAI представила GPT‑5.2 — новую версию ведущей языковой модели с улучшенной логикой и скоростью

habr.com / 6 месяцев назад

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

habr.com / 7 месяцев назад

Claude Opus 4.5 стал лучшим в бенчмарке на реальные рабочие задачи

habr.com / 7 месяцев назад

Mistral выкатили Devstral 2 — открытая SOTA модель для кодинга

gagadget.com / 7 месяцев назад

OpenAI выпустила GPT-5.2: новую модель для профессиональных задач

Больше по теме

27.11.2025 - 08:38 / habr.com

Anthropic представили Claude Opus 4.5: лучшую в мире модель для кодинга и агентов

Anthropic выпустили Claude Opus 4.5 — новую флагманскую модель, которая, по словам компании, стала их самым мощным релизом и вышла в лидеры на задачах реального программирования, агентных сценариев и продуктивной работы с компьютером. Модель также заметно улучшилась в задачах глубокого ресёрча, аналитики и работе с Excel/презентациями.

Opus 4.5 уже доступен в приложениях, через API и во всех трёх крупных облаках. Цена снижена до $5 / $25 за миллион токенов (ввод/вывод), что делает модель сильно доступнее.

На SWE-bench Verified новая модель показывает лучший результат среди всех frontier-моделей — Anthropic отдельно подчёркивает, что Opus 4.5 стал значимым шагом вперёд по сравнению с Sonnet 4.5, преодолев задачи, которые ещё несколько недель назад считались «почти невозможными» для предыдущего поколения.

Кроме того:

Opus 4.5 лидирует в 7 из 8 языков программирования на SWE-bench Multilingual.

Улучшения касаются не только кода — модель получила заметный буст в зрении, математике, рассуждении и мультимодальных задачах.

На Aider Polyglot, BrowseComp-Plus, Vending-Bench — также показатели SOTA или близкие к нему.

Одним из примеров улучшений стал кейс из τ²-bench: модель должна была отказать в изменении билета класса эконом. Вместо этого Opus придумал нетривиальный, но полностью легитимный путь — сначала апгрейдить класс билета, а затем изменить рейс, что для этой категории уже разрешено. Бенчмарк посчитал это «ошибкой», но команда отметила это как пример креативного, почти «инженерного» мышления.

По утверждению команды, Opus 4.5 — самая надёжно выровненнная (aligned) и защищённая от prompt injection модель Anthropic. В ряде тестов на устойчивость к атакующим запросам она опередила всех конкурентов.

Кроме того:

Внутренний «экзамен для

экономика история общество самит курс крипто pythonleader

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Linux Foundation: MCP, Goose и AGENTS.md объединят в общий стандарт для ИИ-агентов habr.com / 7 месяцев назад

Mistral выпустила две модели для кодинга: одна соперничает с Claude Sonnet, вторая работает на домашнем GPU habr.com / 7 месяцев назад

Anthropic подписала $200 млн сделку с Snowflake — её ИИ‑модели станут доступны тысячам компаний habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 12:32

магия самит деревня Assassin's Creed В Assassin's Creed Hexe можно довести врагов до паники — развили систему страха из дополнения для Syndicate

В сети появилась новая информация об Assassin's Creed Codename Hexe — следующей масштабной части флагманской франшизы Ubisoft. Своими сведениями поделился инсайдер RogueTX и они позволяют составить впечатление о том, каким будет экшен в сеттинге средневековой Европы эпохи “охоты на ведьм”.

15.07 / 12:32

технологии экономика самит интересное мода и стиль Dacia Sandero Stepway Hybrid: 155 лошадиных сил и «бюджетность» за миллион гривен

Румынский бренд, который когда-то ассоциировался исключительно с аскетизмом и максимально низкими ценниками, продолжает свою экспансию в территорию сложных технологий. Новая Dacia Sandero Stepway Hybrid наконец-то выходит на европейские рынки, предлагая то, чего раньше в линейке модели не было — пристойную мощность и отсутствие педали сцепления по цене, которая заставляет задуматься о приоритетах.

15.07 / 12:31

связь технологии деньги самит Гендиректор Microsoft: не выдавайте ИИ-компаниям свои секреты

Генеральный директор Microsoft Сатья Наделла предостерёг компании, спешащие внедрить искусственный интеллект, от передачи разработчикам ИИ важных бизнес-данных.

15.07 / 12:31

технологии дети общество политика Минпросвещения установило нормы использования гаджетов детьми

В Минпросвещения РФ установили нормы по использованию смартфонов, компьютеров и телевизора для детей и подростков. Согласно методическим рекомендациям, направленным в регионы, главная задача норм — формирование безопасного цифрового опыта у несовершеннолетних.

15.07 / 12:31

политика самит google BAY Google выступил против блокировки DNS-серверов, CDN и IP-адресов

Google заявила Европейской комиссии, что выступает против блокировки пиратских сайтов в Европе, поскольку считает такие меры малоэффективными и вредными. Компания возражает против блокировки DNS-резолверов (Google владеет сервисом 8.8.8.8), IP-адресов и VPN-сервисов, утверждая, что в этом случае пользователи могут легко обойти запрет с помощью альтернативных инструментов.

15.07 / 12:16

связь экономика Центробанк инфляция политика Без помощи крипторынку и с нулевой терпимостью к инфляции: глава ФРС выступил перед Конгрессом

Председатель Федеральной резервной системы (ФРС) Кевин Уорш выступил перед Комитетом по финансовым услугам Палаты представителей США. Он прокомментировал вопрос независимости регулятора, дал оценку буму в ИИ-секторе, а также заверил, что центробанк «не будет никого спасать», включая участников криптосферы. Напомним, Уорш вступил в должность председателя ФРС в середине мая 2026 года. На первом заседании по процентной ставке он заявил, что намерен сократить количество сигналов относительно политики регулятора и пересмотреть его подход в целом. Выбор Трампа: все, что нужно знать о Кевине Уорше — новом главе ФРС 03.02.2026 Читать Между Трампом и рынком: каким будет первое решение ФРС по ставке при Уорше 17.06.2026 Чит

15.07 / 12:16

инфляция общество финансирование майнер BTC В сообществе биткоина возобновили дискуссию о финансировании майнеров после 2040 года

В сообществе разработчиков биткоина развернулась новая дискуссия о долгосрочной безопасности сети после постепенного уменьшения вознаграждения майнерам. Поводом стала масштабная ветка обсуждения на форуме Delving Bitcoin под названием Addressing the Diminishing Block Subsidy, которая привлекла внимание MARA Foundation. Участники обсуждают, смогут ли комиссии за транзакции полностью заменить субсидию за блок, когда она почти исчезнет, и стоит ли рассматривать альтернативные механизмы финансирования безопасности сети. Предложение: постоянная эмиссия по

15.07 / 12:16

СМИ закон законодательство политика инвестор СМИ: Япония приравняла криптоактивы к финансовым инструментам

Парламент Японии принял законодательные изменения, которые признают криптоактивы финансовыми инструментами. Об этом сообщает Reuters со ссылкой на телеканал NHK. Ожидается, что новый режим регулирования вступит в силу после переходного периода, который продлится около года. Крипторынок переходит под финансовое регулирование После вступления закона в силу криптоактивы будут регулироваться в рамках законодательства о финансовых инструментах и биржах, что приблизит их статус к традиционным финансовым активам. В частности, на участников ры

15.07 / 11:58

наука история климат прогноз глобальное потепление Ученые выяснили причины Великого вымирания — они вам не понравятся

Исследователи утверждают, что крупнейшее массовое вымирание в истории, в результате которого 252 миллиона лет назад погибло 96% морских и 70% наземных видов живых существ, было вызвано определенными климатическими условиями, которые начинают воспроизводиться и сегодня.

15.07 / 11:53

закон самит стартап paypal google Стартап дочери Билла Гейтса обвинили в «накрутке комиссий»

В Bloomberg провели расследование, которое показало, что стартап Phia, основанный дочерью Билла Гейтса Фиби Гейтс и Софией Кианни, использует практику под названием «cookie stuffing». Эта схема позволяла компании получать комиссионные и приписывать себе продажи, которые она фактически не обеспечила.

Лента новостей

На главную страницу