Новое исследование: LLM используются для обучения и оценки автономных агентов
Новые результаты исследований указывают на то, что большие языковые модели (LLM) способны выступать в роли мировых моделей - абстрактных репрезентаций среды, которые могут использоваться для обучения и оценки ИИ-агентов. В традиционной робототехнике и обучении с подкреплением мировые модели создаются вручную или путем симуляции, чтобы агенты могли мысленно планировать действия. Но LLM, по мнению авторов исследования, могут выполнять аналогичную функцию на основе текстовых описаний, логических взаимосвязей и причинно-следственных закономерностей, которые они уже усвоили в процессе предобучения.
Идея мировых моделей заключается в создании внутреннего представления среды, которое позволяет агенту предсказывать последствия своих действий и строить планы без непосредственного взаимодействия с реальным миром. По мнению исследователей, LLM уже содержат такую структурированную информацию о мире, поскольку они моделируют вероятности последовательностей слов и сценариев, отражающих причинно-следственные связи, выявленные в огромных обучающих данных. Таким образом, язык становится не только коммуникационным инструментом, но и универсальным средством моделирования ситуаций.
В экспериментальных условиях модели использовались для имитации среды, в которой агент получает описания текущего состояния, выбирает действия и получает текстовый отклик о последствиях. Это позволяет LLM выполнять задачи, которые традиционно решаются симуляторами с реальными физическими моделями. Такой подход уже демонстрирует способность к многослойному планированию, последовательному рассуждению и адаптации к динамичному контексту - качествам, важным для автономных агентов в робототехнике, играх и сложных симуляциях.
Авторы отмечают, что LLM как мировая модель
Читать на habr.com