Модели ИИ могут определять, когда их тестируют, и вести себя по-другому
Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.
Исследователи называют это «осознанием оценки». Когда модель понимает, что её тестируют, она может изменить свою реакцию — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.
Команда проанализировала 1000 расшифровок из 61 набора данных, охватывающих весь спектр: от простых диалогов в чате до сложного использования инструментов для агентов. Примеры были равномерно распределены по четырём категориям: оценка чата, развёртывание чата, оценка агентов и развёртывание агентов.
Девять основных моделей, включая Claude от Anthropic, GPT от OpenAI и Gemini от Google, были протестированы на каждом фрагменте текста с использованием пяти различных подсказок для получения более надёжных результатов. Для сравнения, два рецензента-человека провели такую же оценку.
Эффективность оценивалась по шкале, где 0,5 соответствует случайному угадыванию, а 1,0 — идеальной точности. Gemini 2.5 Pro набрал 0,83 балла в целом и 0,95 балла в агентных сценариях. Claude 3.5 Sonnet и GPT-4o были близки к этому показателю.
Сложные задачи, связанные с общением, оказались более трудными: даже лучшие модели набрали от 0,71 до 0,77 балла, в то время как люди набрали 0,81. В сценариях с агентами результаты ИИ были намного ближе к результатам экспертов, а базовый показатель для людей был почти идеальным — 0,996.
В исследовании также рассматривался вопрос о том, могут ли модели определять не только время тестирования, но и его цель — в частности,
Читать на habr.com