В MIT научили ИИ предупреждать о галлюцинациях
Рассуждающие модели ИИ отвечают одинаково уверенно и тогда, когда действительно знают ответ, и тогда, когда просто угадывают. Исследователи из MIT CSAIL утверждают, что нашли корень проблемы и предложили способ ее исправить без потери точности. В конце апреля работу Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty представят на ICLR.
Команда сравнивает поведение современных рассуждающих моделей с "самым громким голосом в комнате": модель говорит, что уверена на 95%, но оказывается права лишь в половине случаев. По словам авторов, такая система опаснее модели, которая просто ошибается: у пользователя нет повода усомниться в ответе и поискать второе мнение. В медицине, праве и финансах это особенно критично.
Источник проблемы оказался в самой функции награды стандартного RL, которым обучают современные reasoning-модели. Она бинарная: оценивает только правильность финального ответа. Угадывание монеткой и аккуратное рассуждение получают одинаковую награду, если ответ верен. А воздержание от ответа и неправильный ответ оцениваются одинаково — модели выгоднее всегда что-то отвечать, чем признать неуверенность. Со временем она усваивает простую стратегию — отвечать с непоколебимой уверенностью на все подряд. "Стандартный подход к обучению прост и эффективен, но не дает модели стимула выражать неуверенность или говорить “не знаю", — объясняет соавтор работы Мехул Дамани, аспирант MIT.
Решение, которое команда назвала RLCR — Reinforcement Learning with Calibration Rewards, — добавляет к функции награды еще один элемент: метрику Брайера (Brier score). Это классическая метрика, которая штрафует за разрыв между заявленной уверенностью и фактической точностью. В результате модель учится не только решать задачу, но и
Читать на habr.com


