ИИ-симуляторы пользователей оказались слишком вежливыми – и это проблема. Google придумала, как их раскусить
Исследователи из Google Research представили ConvApparel – новый датасет и комплексный фреймворк для измерения “разрыва в реалистичности” (realism gap) LLM-симуляторов пользователей. А заодно – способ этот разрыв уменьшать.
На основе датасета авторы построили трёхстолпную систему оценки правдоподобия симуляторов.
Современные диалоговые ИИ-агенты неплохо справляются с многошаговыми задачами: задают уточняющие вопросы, помогают пользователю. Но в длинных взаимодействиях они иногда выдают несвязные ответы. Обучать их на живых людях долго, а масштабировать сложно, поэтому исследователи порой используют симуляторы пользователей – LLM, которым дают инструкцию “притворись человеком”.
Однако такие симуляторы страдают от разрыва реалистичности. Они бывают слишком терпеливыми, обладают неестественно всеохватывающими энциклопедическими знаниями в каких-либо областях или пишут абсолютно грамотно. Это как если бы авиасимулятор всегда показывал идеальную погоду.
Команда Google Research (Офер Меши, Салли Голдман и коллеги) решила проблему очевидным образом: они создали ConvApparel – датасет из более чем 4000 многошаговых диалогов (почти 15 000 реплик) в домене шопинга одежды. И применили хитрую схему с двумя агентами-помощниками:
Хороший агент – полезный, эффективный консультант с мощным поиском.
Плохой агент – специально сделанный не-helpful: он слегка искажает ключевые слова и использует деградированный поиск, чтобы бесить пользователя.
Участники не знали, к какому агенту их направили. После каждого шага диалога они ретроспективно оценивали свою удовлетворённость, фрустрацию и вероятность покупки. Так в датасете появилась покадровая ground-truth-аннотация внутреннего состояния пользователя.
Статистическое выравнивание на уровне популяции –
Читать на habr.com