



Исследователи Anthropic обучают языковые модели самосовершенствованию
Исследователи из компании Anthropic разработали новый метод под названием «Максимизация внутренней согласованности» (Internal Coherence Maximization, ICM), который позволяет точно настроить языковые модели, используя только их собственные результаты. Этот подход может помочь (или даже заменить) человеческий контроль при выполнении сложных задач.
Традиционно большие языковые модели дорабатываются с помощью человеческого контроля, например, с помощью примеров ответов или обратной связи. Но по мере того как модели становятся больше, а их задачи — сложнее, человеческий контроль становится менее надёжным, утверждают исследователи из Anthropic, Schmidt Sciences, Independent, Constellation, Нью-Йоркского университета и Университета Джорджа Вашингтона в новом исследовании.
Их решением является алгоритм, называемый Internal Coherence Maximization, или ICM, который обучает модели без внешних меток, полагаясь исключительно на внутреннюю согласованность.
В основе ICM лежит простая идея: языковая модель, такая как Claude или Llama, должна сама определять, какой ответ на вопрос является правильным, и делать это с помощью двух основных критериев.
Первый — это взаимная предсказуемость. Это означает, что модель проверяет, может ли она достоверно вывести правильный ответ на новый вопрос на основе ответов на аналогичные предыдущие вопросы. Если модель распознаёт закономерности в похожих случаях, она может применить их к новым ответам, создавая внутреннюю согласованность — набор ответов, которые сочетаются друг с другом и отражают общее понимание.
Второй критерий — логическая непротиворечивость. Здесь модель проверяет собственные ответы на наличие противоречий. Например, если модель считает два разных решения одной и той же математической задачи
Читать на habr.com