Об этом же в других СМИ

habr.com / 2 месяца назад

Anthropic арендует Colossus у xAI: лимиты Claude Code удваиваются

habr.com / 2 месяца назад

Рекурсия по городу: CTF-приключение для разработчиков

habr.com / 2 месяца назад

Совет директоров «Яндекса» одобрил обратный выкуп акций на 50 млрд рублей. Программа рассчитана на два года

cursorinfo.co.il / 2 месяца назад

Как пожарить яйца как в ресторане – два секретных способа

gagadget.com / 2 месяца назад

Мечта геймера: новый монитор LG серии UltraGear поддерживает два режима работы и может виртуально уменьшать экран

Больше по теме

20.04.2026 - 12:54 / habr.com

Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности

Независимый бенчмарк AA-Omniscience зафиксировал у новой Claude Opus 4.7 почти двукратное снижение галлюцинаций — когда у модели нет ответа на вопрос, она выдумывает его в 32% случаев, а в остальных говорит "не знаю". У Opus 4.6 этот показатель составлял 61%. Точность ответов на сложные вопросы при этом осталась на прежнем уровне, около 46%. Anthropic улучшила не объем знаний модели, а ее калибровку — способность признавать незнание вместо фабрикации ответа.

AA-Omniscience — бенчмарк от Artificial Analysis, вышедший в ноябре 2025 года: 6000 вопросов из шести экономически значимых доменов (бизнес, право, медицина, разработка ПО, наука и гуманитарные дисциплины). Вопросы намеренно отбирались так, чтобы на них мог ответить только эксперт в своей области. Например: как в Rust 2024 называется конкурентность внутри одной задачи в отличие от конкурентности между задачами, или что означает аббревиатура EAPR в колоректальной хирургии применительно к extralevator-технике. Отвечает модель без доступа к интернету и инструментам — проверяется то, что модель реально запомнила при обучении. При запуске бенчмарка в ноябре 2025 максимальную точность среди всех моделей показывали Grok 4 и GPT-5 (high) — всего 39%. 46% у Opus 4.7 на таком уровне сложности — сильный результат.

Уникальность метрики — в системе штрафов: +1 балл за правильный ответ, −1 за неправильный, 0 за отказ отвечать. Hallucination rate здесь — доля неправильных ответов среди всех случаев, где модель не дала правильного: то есть мера переуверенности, а не незнания.

Лидером общего индекса AA-Omniscience остается Gemini 3.1 Pro Preview — 33 балла против 26 у Opus 4.7. Но это две разные стратегии. Google выходит в топ через высокую точность (55% против 46% у Opus 4.7), хотя

медицина общество интересное google gemini runawayllm Калибр

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Rivian затягивает пояса: завод в Джорджии «похудел» на два миллиарда долларов gagadget.com / 2 месяца назад

Кошки едят не раз-два в день — раскрыт их реальный ритм cursorinfo.co.il / 2 месяца назад

Боль при артрите — два фрукта могут усиливать симптомы cursorinfo.co.il / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 19:18

люди работа общество самит астрология Идеальные коллеги: какие знаки Зодиака лучше всего работают вместе

Совместимость важна не только в любви, но и работе, говорят астрологи.

14.07 / 19:18

люди здоровье общество модель Эксперт Стоит ли израильтянам повторять за Хейли Бибер – мнение дерматолога

Израильский дерматолог оценила популярные домашние рецепты красоты. Многие модные лайфхаки из интернета вредят здоровью кожи.

14.07 / 19:18

история общество курьез интересное дети и родители 843 языка в одной стране – разбор удивительного феномена

Ученые объясняют культурное богатство сложным горным рельефом местности. Изоляция общин помогла сберечь редкие наречия от вымирания.

14.07 / 19:14

доллар Casio выпустила новые часы Baby-G BG169CMB-8 с камуфляжным дизайном и защитой до 200 метров

В основе BG169CMB-8 лежит уже знакомый корпус BG-169 с круглой формой, изготовленный из полимерного материала. Дополнительную защиту обеспечивают металлические элементы вокруг циферблата.

14.07 / 19:14

связь Samsung технологии общество расследование Владельцы Samsung Galaxy S26 Ultra пожаловались на красное пятно в центре экрана

Samsung уже подтвердила, что знает о поступающих обращениях и проводит внутреннее расследование, чтобы установить причину возникновения дефекта.

14.07 / 18:38

люди ученые животные общество климат Пять коров 130 лет жили без людей — ученые были удивлены итогом

Животные не только выжили в полной изоляции, но и создали популяцию, численность которой достигла примерно двух тысяч особей.

14.07 / 18:07

здоровье семья женщина Здоровье и красота Эксперт Табу в косметологии – семь процедур, которые стоит отложить до осени

Чтобы сохранить здоровье кожи и избежать нежелательной пигментации, эксперты настоятельно рекомендуют отложить процедуры на осенне-зимний период.

14.07 / 18:07

здоровье общество интересное астрология Дом и интерьер Гороскоп на середину июля 2026 года для всех знаков Зодиака

Середина июля 2026 года станет периодом, когда многим захочется перейти от размышлений к более конкретным решениям.

14.07 / 17:58

происшествия самит Github скрыл форк zapret разработчика Flowseal

10 июля 2026 года репозиторий zapret-discord-youtube и аккаунт разработчика Flowseal на GitHub стали недоступны — страницы отдают ошибку 404. Вместе с основным проектом пропал доступ и ко всем остальным репозиториям, привязанным к этому аккаунту (в том числе tg-ws-proxy - прокси для Telegram).

14.07 / 17:57

Huawei самит AirPods мода и стиль Huawei представила FreeClip 2 S — элегантные наушники открытого типа с измененным зарядным кейсом и отличным звучанием

В дополнение к фотофлагманам Pura 90s Pro и Pura 90s Pro Max Huawei выпустила на глобальный рынок FreeClip 2S — продолжение своей знаковой линейки беспроводных наушников открытого типа. Новинка базируется на выпущенной в Китае в 2025 году модели FreeClip 2, но предлагает обновленный дизайн и измененный зарядный футляр.

Лента новостей

На главную страницу