



Исследование Apple: управляемость ИИ зависит от задачи
Новое исследование показало, что управлять языковыми и генеративными AI-моделями сложнее, чем кажется. Эффективность таких моделей зависит от конкретной задачи, самого алгоритма и использованного запроса.
Исследователи из Apple и Университета Помпеу Фабра испытали модели SmolLM3-3B, Qwen3-4B и Gemma3-4B на заданиях по изменению формата текста, длины строки и генерации четных или нечетных чисел. Если человеку легко назвать четное или нечетное число, то для языковых моделей это не всегда так: Gemma3-4B обычно справляется, а SmolLM3-3B часто ошибается.
На задании по изменению формальности Qwen3-4B и Gemma3-4B достигли полного контроля всего за пять диалоговых раундов при 5-shot-подсказках. SmolLM3-3B, наоборот, оказался неуправляемым. Авторы заметили, что даже при прямой обратной связи модели часто слишком сильно уходят в другую сторону.
В тесте на генерацию четных или нечетных чисел Qwen3-4B показал полный контроль над результатом, а Gemma3-4B работала почти безупречно, но не справилась с задачей по всей шкале заданий.
Масштабирование моделей Qwen с 0,6 до 14 миллиардов параметров показало: большие модели лучше управляются, но главный скачок перестает расти примерно на уровне 4 миллиардов параметров.
В тестах текст-в-изображение (FLUX-s и SDXL) проверялась возможность управлять количеством объектов, их расположением и насыщенностью. FLUX-s надежно создавал больше объектов, если их просили, но редко точно совпадал с требуемым числом - средняя ошибка составляла около 3,5 объекта.
Наиболее ярким проблема оказалась с насыщенностью: FLUX-s и SDXL легко создают изображения с разной насыщенностью, но совпадение с запросом практически случайно - корреляция по насыщенности не превышала 0,1.
Исследователи основывались на подходах из теории
Читать на habr.com
