



Fara-7B: компактная модель ИИ от Microsoft
Fara-7B - компактная система искусственного интеллекта, предназначенная для автоматизации пользовательских интерфейсов исключительно на основе визуального ввода. Несмотря на скромные размеры, модель способна конкурировать с более сложными системами, работая полностью локально на потребительских устройствах.
Разработанная на базе Qwen2.5-VL-7B от Alibaba, Fara-7B, по данным Microsoft, использует исключительно визуальную информацию. Вместо анализа DOM-дерева или HTML-кода модель работает напрямую со скриншотами интерфейса по принципу «наблюдай-думай-действуй»: она прогнозирует координаты кликов и генерирует нажатия клавиш. Для принятия решений система использует три последних скриншота, историю действий и пользовательский ввод.
Обладая всего 7 миллиардами параметров, Fara-7B достаточно легка для работы непосредственно на устройстве пользователя. Microsoft утверждает, что такой подход не только снижает задержки, но и повышает конфиденциальность, поскольку все данные обрабатываются локально.
Ключевой прорыв команды Microsoft — решение проблемы нехватки обучающих данных. Вместо трудоёмкого ручного сценария записи действий компания использовала синтетический конвейер генерации данных на собственной мультиагентной платформе Magentic-One. В этой системе агент-оркестратор составлял пошаговые планы, а агент WebSurfer их выполнял. В результате было собрано около 145 000 успешных сценариев общей сложностью в миллион шагов, которые затем были использованы для обучения компактной Fara-7B.
Команда использовала собственную мультиагентную платформу Magentic-One для автоматического создания решений задач. Агент Orchestrator составляет пошаговые планы, а агент WebSurfer их выполняет. Затем Microsoft собрала данные об успешных выполнениях задач
Читать на habr.com