Исследователи MIT разработали способ обучения более надёжных ИИ-агентов
Чтобы повысить надёжность моделей обучения с подкреплением для сложных задач с вариативностью, исследователи Массачусетского технологического института представили более эффективный алгоритм. Он стратегически выбирает лучшие задачи для обучения агента ИИ, чтобы он мог эффективно выполнять все таски из одного набора.
Модели обучения с подкреплением, лежащие в основе современных систем принятия решений ИИ, по-прежнему часто терпят неудачу, когда сталкиваются даже с небольшими корректировками задач. В случае с движением транспорта модели может быть сложно контролировать набор перекрёстков с разными ограничениями скорости, количеством полос движения или схемами движения. Новый алгоритм позволяет представлять один перекрёсток в пространстве задач, включающем все остальные в городе.
Сосредоточив внимание на меньшем количестве пересечений, которые в наибольшей степени способствуют общей эффективности алгоритма, этот метод максимизирует производительность, сохраняя при этом низкую стоимость обучения.
Исследователи обнаружили, что их метод в 5–50 раз эффективнее стандартных подходов к моделированию задач. Это помогает алгоритму быстрее найти лучшее решение, что в конечном итоге повышает производительность ИИ-агента.
«Мы смогли увидеть невероятные улучшения производительности с помощью очень простого алгоритма, думая нестандартно. Алгоритм, который не очень сложен, имеет больше шансов быть принятым сообществом, потому что его легче реализовать и понять другим», — говорит старший автор Кэти Ву, доцент Университета Томаса Д. и Вирджинии В. Кэбот.
Чтобы обучить алгоритм управлению светофорами на большом числе перекрёстков, инженер обычно выбирает один из двух основных подходов. Он может обучить один алгоритм для каждого перекрёстка
Читать на habr.com