Об этом же в других СМИ

habr.com / 2 месяца назад

Ask YouTube – Google учит видеоплатформу давать пошаговые ответы с фрагментами роликов

habr.com / 2 месяца назад

Microsoft добавила в меню Teams баннер с предложением купить Premium и разозлила пользователей

habr.com / 2 месяца назад

Кэт Ву из Anthropic признала, что пользователи испытывают FOMO от бесконечных ИИ-релизов

habr.com / 2 месяца назад

Google инвестирует 40 млрд $ в Anthropic, оценивая её в 350 млрд $

habr.com / 2 месяца назад

Верховный суд отказал ирландскому подразделению Google в возможности судиться за границей

Больше по теме

14.04.2026 - 08:47 / habr.com

ИИ-симуляторы пользователей оказались слишком вежливыми – и это проблема. Google придумала, как их раскусить

Исследователи из Google Research представили ConvApparel – новый датасет и комплексный фреймворк для измерения “разрыва в реалистичности” (realism gap) LLM-симуляторов пользователей. А заодно – способ этот разрыв уменьшать.

На основе датасета авторы построили трёхстолпную систему оценки правдоподобия симуляторов.

Современные диалоговые ИИ-агенты неплохо справляются с многошаговыми задачами: задают уточняющие вопросы, помогают пользователю. Но в длинных взаимодействиях они иногда выдают несвязные ответы. Обучать их на живых людях долго, а масштабировать сложно, поэтому исследователи порой используют симуляторы пользователей – LLM, которым дают инструкцию “притворись человеком”.

Однако такие симуляторы страдают от разрыва реалистичности. Они бывают слишком терпеливыми, обладают неестественно всеохватывающими энциклопедическими знаниями в каких-либо областях или пишут абсолютно грамотно. Это как если бы авиасимулятор всегда показывал идеальную погоду.

Команда Google Research (Офер Меши, Салли Голдман и коллеги) решила проблему очевидным образом: они создали ConvApparel – датасет из более чем 4000 многошаговых диалогов (почти 15 000 реплик) в домене шопинга одежды. И применили хитрую схему с двумя агентами-помощниками:

Хороший агент – полезный, эффективный консультант с мощным поиском.

Плохой агент – специально сделанный не-helpful: он слегка искажает ключевые слова и использует деградированный поиск, чтобы бесить пользователя.

Участники не знали, к какому агенту их направили. После каждого шага диалога они ретроспективно оценивали свою удовлетворённость, фрустрацию и вероятность покупки. Так в датасете появилась покадровая ground-truth-аннотация внутреннего состояния пользователя.

Статистическое выравнивание на уровне популяции –

технологии люди самит интересное google gemini dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Чат-боты с ИИ могут сделать пользователей глупее habr.com / 2 месяца назад

Google придумала «гиперкомпьютеры»: что это за зверь и зачем он искусственному интеллекту gagadget.com / 2 месяца назад

Alibaba vs Google: Qwen3.6-35B-A3B обходит Gemma 4-31B в кодинге, эрудиции и математике habr.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 17:36

Samsung технологии Qualcomm мода и стиль google Ставка на Gemini, стильные оправы и девять часов без зарядки — инсайдер раскрыл подробности AR-очков Samsung Eyewear

Завтра состоится презентация Galaxy Unpacked, на которой Samsung представит не только флагманские складные смартфоны и две модели смарт-часов, но и, как сообщил инсайдер Роланд Квандт (Roland Quandt), планирует впервые официально раскрыть подробности о своих первых смарт-очках. В статье они обозначены как Samsung Eyewear.

21.07 / 17:36

продукты связь общество starlink авиакомпания PeakDo LinkPower 3: энергия для Starlink Mini и «интернет вещей» в пауэрбанке

Спутниковый терминал Starlink Mini стал настоящим спасением для тех, кто хочет оставаться на связи посреди леса или в горах, однако Илон Маск (Elon Musk) решил не добавлять в него встроенный аккумулятор. Этот пробел на рынке успешно заполняет компания PeakDo, которая выпустила уже третье поколение своего специализированного аккумулятора — LinkPower 3. Устройство стало не просто более емким, но и получило неожиданное обновление, заставляющее вспомнить о концепции «умного дома» даже в полевых условиях.

21.07 / 17:36

футбол звезда капитал инвестор симуляторы Килиан Мбаппе стал лицом EA Sports FC 27 — новый футбольный симулятор представят уже 23 июля

На волне огромного интереса к футболу, сразу после окончания Чемпионата мира компания Electronic Arts приступила к активной маркетинговой компании нового симулятора EA Sports FC 27.

21.07 / 17:34

общество самит отношения психология Эксперт Когда нужно завершить хорошие отношения – мнение психологов

Самые тяжелые расставания происходят без скандалов и измен. Иногда партнеры просто утрачивают прежние чувства, оставаясь чужими людьми.

21.07 / 17:34

Apache Вышло обновление FreeRDP 3.30

16 июля 2026 года состоялся выпуск открытого проекта FreeRDP 3.30. Это реализация протокола удалённого рабочего стола Microsoft (Remote Desktop Protocol — RDP), опубликованная на GitHub под лицензией Apache License 2.0. Исходный код проекта написан на С и С++. Разработка решения ведётся более 15 лет. Стабильная версия FreeRDP 3.20 вышла в декабре 2025 года.

21.07 / 17:18

Nvidia общество интересное intel Dell Dell представила сразу три мощных ноутбука Alienware с видеокартами GeForce RTX 50: флагман получил экран 300 Гц

Все устройства получили новейшие процессоры Intel Core Ultra 9 290HX Plus, видеокарты NVIDIA GeForce RTX 50 Series Laptop и OLED-дисплеи с высокой частотой обновления. Информация опубликована компанией Dell и подтверждается характеристиками, размещенными на официальных страницах производителя.

21.07 / 17:12

люди ученые общество самит психология Что происходит в мозгу человека за секунду до смерти: данные науки

Трагическое стечение обстоятельств помогло записать активность мозга. Аппарат продолжал фиксировать сигналы после остановки сердца мужчины.

21.07 / 17:01

Amazon доллар reddit AWS по ошибке выставила пользователям миллиардные счета

С вечера 16 июля и 17 июля 2026 года некоторые клиенты облачного сервиса Amazon Web Services обнаружили выставленные автоматически счета за облачные услуги, которые они не заказывали. Суммы в личных кабинетах пользователей варьировались от нескольких миллионов до миллиардов долларов.

21.07 / 16:52

здоровье работа общество психология стресс Опасный начальник – главные признаки и как этому противостоять

Токсичные руководители часто используют свою власть для давления. Они унижают подчиненных и разрушают здоровую атмосферу в команде.

21.07 / 16:34

технологии общество В Росатоме разработали систему «Когнитрон» для создания ИИ‑агентов

Госкорпорация «Росатом» представила систему «Когнитрон» для обучения и развертывания моделей искусственного интеллекта, а также для создания ИИ‑помощников и ИИ‑агентов. Решение поддерживает работу с текстом, изображениями, аудио‑ и видеофайлами. Платформа позволяет дообучать большие языковые модели знаниями компании без участия разработчиков. В мае 2026 года система была включена в реестр российского программного обеспечения.

Лента новостей

На главную страницу