



Apple с University of Washington протестировали ИИ-агентов на Gemini и ChatGPT, вывод: технология еще не готова
Пока мы все активно тестируем, как ИИ может писать эссе, код или генерировать картинки, исследователи из Apple и University of Washington задались куда более практичным вопросом: а что будет, если дать искусственному интеллекту полный доступ к управлению мобильными приложениями? И главное - поймет ли он последствия своих действий?
Что известно
В исследовании под названием "From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts", опубликованном для конференции IUI 2025, команда ученых обнаружила серьезный пробел:
современные большие языковые модели (LLM) довольно неплохо понимают интерфейсы, но катастрофически плохо осознают последствия собственных действий в этих интерфейсах.
Например, для ИИ нажать кнопку "Удалить аккаунт" выглядит почти так же, как "Поставить лайк". Разницу между ними ему еще надо объяснить. Чтобы научить машины различать важность и риски действий в мобильных приложениях, команда разработала специальную таксономию, которая описывает десять основных типов влияния действий на пользователя, интерфейс, других людей, а также учитывает обратимость, долгосрочные последствия, проверку выполнения и даже внешние контексты (например, геолокацию или статус аккаунта).
Исследователи создали уникальный датасет из 250 сценариев, где ИИ должен был понять, какие действия безопасны, какие требуют подтверждения, а какие лучше вообще не выполнять без человека. По сравнению с популярными датасетами AndroidControl и MoTIF, новый набор значительно богаче на ситуации с реальными последствиями - от покупок и смены паролей до управления умными домами.
В исследовании тестировали пять языковых моделей (LLM) и мультимодальных моделей (MLLM), а именно:
Эти модели тестировали в
Читать на gagadget.com