



Архитектура New Energy-Based Transformer призвана улучшить «системное мышление» в моделях ИИ
Новая архитектура под названием Energy-Based Transformer призвана научить модели ИИ решать задачи аналитически и поэтапно.
Большинство современных моделей ИИ работают по принципу, который Дэниел Канеман назвал «System 1 thinking»: они быстрые, интуитивные и отлично справляются с распознаванием образов. Но, согласно исследованию, проведённому учёными из Университета Вирджинии, Университета Иллинойса в Чикаго, Стэнфорда, Гарварда и Amazon GenAI, эти модели часто не справляются с задачами, требующими более медленного и аналитического «System 2 thinking», например со сложными логическими рассуждениями или продвинутой математикой.
В статье «Трансформеры на основе энергии — масштабируемые обучающиеся и мыслящие системы» задаётся вопрос, могут ли подобные навыки мышления развиться исключительно в результате обучения без учителя. Исследователи предлагают новую архитектуру: Energy-Based Transformer (EBT).
Подход EBT рассматривает мышление как итеративный процесс оптимизации. Вместо того чтобы генерировать ответ за один шаг, модель начинает со случайного решения. Затем она оценивает это решение, вычисляя значение «энергии».
Чем ниже энергия, тем лучше прогноз соответствует контексту. Благодаря многократным корректировкам с помощью градиентного спуска ответ постепенно уточняется, пока энергия не достигнет минимума. Это позволяет модели тратить больше вычислительных ресурсов на решение более сложных задач.
Идея рассматривать этот процесс с точки зрения энергии не нова: главный специалист Meta* по искусственному интеллекту Янн ЛеКун и другие учёные уже много лет обсуждают «модели, основанные на энергии».
В ходе экспериментов исследователи сравнили EBT с усовершенствованным вариантом Transformer (Transformer++). Их результаты показывают,
Читать на habr.com