



Видит слева, а генерирует справа: китайские исследователи лечат «афазию» нейросетей
Китайские исследователи представили UniCorn — своеобразный «реабилитационный курс» для мультимодальных моделей, который учит ИИ замечать собственные сбои и самостоятельно их исправлять.
Сегодня многие мультимодальные системы умеют не только понимать изображения, но и создавать их. Однако между этими двумя умениями нередко появляется неожиданная пропасть. Модель, например, может безошибочно определить: пляж расположен слева, а волны — справа, но стоит ей самой сгенерировать картинку — и стороны вдруг меняются местами, будто в зеркале.
Учёные из Университета науки и технологий Китая (USTC) и ряда других вузов называют этот странный эффект «проводниковой афазией» — аналогией с неврологическим расстройством, при котором человек понимает речь, но не может правильно её воспроизвести. UniCorn призван ликвидировать этот разрыв между пониманием и созданием.
Основная задумка UniCorn проста, почти интуитивна: если модель лучше оценивает изображение, чем генерирует его, то её способность оценивать можно использовать как рычаг, чтобы улучшить способность создавать. Исследователи разделяют одну и ту же мультимодальную модель на три роли, которые работают в едином параметрическом пространстве.
Сначала «Предложитель» формирует множество разнообразных и непростых текстовых описаний. Затем «Решатель» генерирует для каждого запроса целую серию изображений — обычно восемь вариантов с разными параметрами. И наконец, «Судья» выставляет каждому изображению оценку по шкале от 0 до 10 и подробно объясняет своё решение.
Настоящее обучение происходит на втором этапе. Все собранные взаимодействия превращаются в четыре разных формата обучения: модель учится не только генерировать удачные изображения по описанию, но и описывать собственные
Читать на habr.com