



Исследование способности языковых моделей к логическим рассуждениям — тест RELIC
Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.
Тест RELIC работает следующим образом: ИИ получает формальную грамматику — по сути, точный набор правил, определяющих искусственный язык, — а также строку символов. Затем модель должна определить, является ли строка допустимой в соответствии с правилами грамматики.
Например, «предложение» (обозначается как S) определяется как «часть A», за которой следует «часть B» (S → A B). «Часть A» сама по себе состоит из «символа C» и «символа D» (A → C D), и так далее до таких правил, как «символ C становится 't43'» (C → 't43'). ИИ должен определить, может ли строка «t43 t51 t66 t72» быть сгенерирована с помощью этих правил. Важно отметить, что модель не получает примеров правильных или неправильных строк и не проходит предварительную подготовку по конкретной грамматике — она должна применять правила «с нуля», полагаясь только на описание, данное в контексте.
Чтобы добиться успеха, модель должна распознавать и правильно применять множество правил в правильном непостоянном порядке — иногда многократно и во вложенных комбинациях. По словам исследователей, это похоже на проверку правильности написания компьютерной программы или грамматической правильности предложения. Существует два типа правил грамматики: те, которые разбивают абстрактные заполнители (нетерминалы, такие как S, A, B) на другие заполнители (например, S → A B), и те, которые заменяют
Читать на habr.com