«Дыши глубже!». ChatGPT лучше отвечает на математические запросы, если его поощрять как человека
Новая методика, разработанная Google DeepMind, позволяет улучшить ответы чат-ботов, применяя словесный метод поощрения.
Помогаем
Детям из Мариуполя нужно 120 ноутбуков для обучения - подари старое "железо", пусть оно работает на будущее Украины
В статье, опубликованной в этом месяце на arXiv, ученые DeepMind представили свой способ улучшения продуктивности больших языковых моделей — таких, как ChatGPT OpenAI и PaLM 2 от Google. Новый подход обходит ограничение традиционных математических оптимизаторов, используя естественный (человеческий) язык для направления языковой модели к решению проблемы.
«Вместо того, чтобы формально определять задачу оптимизации и выводить шаг обновления с помощью запрограммированного решения, мы описываем задачу оптимизации на естественном языке, а затем инструктируем языковую модель итеративно генерировать новые решения на основе описания проблемы и предварительной информации», — пишут исследователи.
Как правило, в машинном обучении методы, использующие алгоритмы (такие, как оптимизаторы на основе производных), управляют улучшением продуктивности модели ИИ:
Представьте продуктивность модели как кривую на графике, где цель – найти самую низкую точку на этой кривой, потому что именно там модель совершает меньше ошибок. Используя наклон кривой для корректировки, оптимизатор помогает модели приближаться к идеальной нижней точке.
Впрочем, вместо того, чтобы полагаться на формальные математические определения для выполнения этой задачи, метод (получивший название OPRO) использует «метаподсказки» на естественном языке, чтобы подготовить основу для процесса оптимизации. Затем языковая модель генерирует варианты решений на основе описания проблемы и предыдущих решений, и проверяет их, назначая
Читать на itc.ua

