Об этом же в других СМИ

habr.com / 1 год назад

Google представляет новую модель Gemini, которая может работать на локальных роботах

habr.com / 1 год назад

Новый эксперимент с Othello подтверждает гипотезу о модели мира для больших языковых моделей

habr.com / 1 год назад

YouTube встраивает модель Veo 3 для создания видеороликов прямо в Shorts

habr.com / 1 год назад

OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам

habr.com / 1 год назад

В AI Mode от Google теперь можно вести двусторонний голосовой диалог

Больше по теме

11.06.2025 - 07:36 / habr.com

Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.

Исследователи называют это «осознанием оценки». Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.

Команда проанализировала 1000 расшифровок из 61 набора данных, охватывающих весь спектр: от простых диалогов в чате до сложного использования инструментов для агентов. Примеры были равномерно распределены по четырём категориям: оценка чата, развёртывание чата, оценка агентов и развёртывание агентов.

Девять основных моделей, включая Claude от Anthropic, GPT от OpenAI и Gemini от Google, были протестированы на каждом фрагменте текста с использованием пяти различных подсказок для получения более надёжных результатов. Для сравнения, два рецензента-человека провели такую же оценку.

Эффективность оценивалась по шкале, где 0,5 соответствует случайному угадыванию, а 1,0 — идеальной точности. Gemini 2.5 Pro набрал 0,83 балла в целом и 0,95 балла в агентных сценариях. Claude 3.5 Sonnet и GPT-4o были близки к этому показателю.

Сложные задачи, связанные с общением, оказались более трудными: даже лучшие модели набрали от 0,71 до 0,77 балла, в то время как люди набрали 0,81. В сценариях с агентами результаты ИИ были намного ближе к результатам экспертов, а базовый показатель для людей был почти идеальным — 0,996.

В исследовании также рассматривался вопрос о том, могут ли модели определять не только время тестирования, но и его цель — в частности,

технологии люди общество google gemini mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

ИИ-модель Google Gemini «запаниковала», играя в Pokémon habr.com / 1 год назад

Gemini 2.5 Flash-Lite — самая быстрая и экономичная модель в линейке Gemini от Google habr.com / 1 год назад

Китайский стартап MiniMax представил модель MiniMax M1 — конкурент для Gemini 2.5 Pro habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 17:33

связь люди животные общество человек Как собаки определяют для себя "особенного" человека - ветеринары

Ветеринары объяснили, какие признаки свидетельствуют о привязанности собаки к отдельному человеку.

16.07 / 17:19

семья Sony ликвидация playstation Шоу бизнес Британские ритейлеры поддерживают геймеров в борьбе за диски: тезисы Sony разбиваются о статистику продаж

Когда Sony объявила об отказе от выпуска дисковых копий своих игр, она объяснила это тем, что предпочтения геймеров изменились и теперь им удобнее совершать покупки в цифровом формате. Это решение вызвало огромное осуждение, а утверждение, что диски никто не покупает и вовсе выглядело абсурдным.

16.07 / 17:19

технологии Все о Redmi 17 4G — бюджетном смартфоне с 4 Гб оперативки и новым световым кольцом

Незадолго до официального анонса в сети появились качественные рендеры и подробные технические характеристики нового бюджетного смартфона Redmi 17 4G, который станет преемником модели Redmi 15. Утечка раскрывает обновленный внешний вид устройства, его цветовые варианты и ключевые улучшения по сравнению с прошлым поколением.

16.07 / 17:06

экономика общество google В 1inch прокомментировали заявление Антона Букова об уходе из проекта

Команда 1inch подтвердила, что сооснователь Антон Буков больше не участвует в проекте и с декабря 2025 года он не вовлечен в деятельность связанных организаций. В 1inch заявили, что уход Букова не сказывается на работе 1inch Network и связанных организаций: протоколы, инфраструктура и все основные системы функционируют в штатном режиме. По словам представителей компании, сооснователь Сергей Кунц и действующая управленческая команда продолжают работу над проектом, а стратегия и роадмап остаются неизменными. В компании поблагодарили Буко

16.07 / 17:06

продукты люди здоровье общество вредные продукты Какие продукты вызывают отечность и портят вашу внешность

Медики рассказали, каких продуктов стоит избегать при склонности к отекам и задержке жидкости в организме.

16.07 / 16:54

люди музыка здоровье общество привычка Какие приятные привычки могут продлить жизнь на 10 лет

Ученые все чаще отмечают, что долголетие зависит не только от здорового образа жизни.

16.07 / 16:54

технологии здоровье спорт общество напитки Какой чай может зарядить организм энергией - ответ экспертов

Специалисты рассказали, почему чай иногда может быть более уместным для поддержки организма, чем кофе.

16.07 / 16:41

технологии происшествия самит расследование кибератаки Крупнейший в Японии оператор такси отключил IT-системы после кибератаки

Крупнейший в Японии оператор такси Nihon Kotsu сообщил о кибератаке против своих IT-систем, что привело к отключению этой инфраструктуры. Инцидент произошёл 11 июля 2026 года, повлияв на систему диспетчеризации такси, которая остаётся недоступной до сих пор.

16.07 / 16:17

Apple закон самит google Google откроет Android для сторонних магазинов приложений уже на следующей неделе после поражения в суде

Компания Google официально подтвердила, что с 22 июля начнет выполнять требования постоянного судебного предписания, обязывающего открыть Android для альтернативных магазинов приложений. Решение стало следствием многолетнего судебного разбирательства с Epic Games, которое завершилось не в пользу технологического гиганта.

16.07 / 16:16

технологии история самит наушники google Skullcandy объединилась с Bose и выпустила самые продвинутые наушники в своей истории

Компания Skullcandy представила беспроводные наушники Crusher 1080 ANC, которые производитель называет самой продвинутой моделью в своей истории. Новинка стала результатом сотрудничества с Bose и впервые объединила фирменную технологию Crusher Bass с набором аудиотехнологий Sound by Bose.

Лента новостей

На главную страницу