
OpenAI добавляет новые возможности настройки для o4-mini и GPT-4.1
OpenAI расширяет свою программу настройки для o4-mini, представляя Reinforcement Fine-Tuning (RFT) для организаций. Метод разработан, чтобы помочь адаптировать модели, такие как o4-mini, к высокоспецифичным задачам с помощью программируемой системы оценок.
RFT разработан, чтобы помочь организациям настроить языковые модели для узкоспециализированных областей, таких как право, финансы или безопасность. Вместо того, чтобы полагаться на фиксированные ответы, RFT использует программируемый «оценщик», который оценивает каждый ответ модели на основе пользовательских критериев, таких как стиль, точность или безопасность. Несколько оценщиков можно объединить для отражения более мелких целей.
При такой настройке модель учится расставлять приоритеты в ответах, которые получают более высокие баллы от оценщика. Подход основан на обучении с подкреплением, той же базовой технике, которая лежит в основе моделей рассуждений OpenAI, таких как o3. Запрос на чтение доступен для проверенных организаций с сегодняшнего дня.
Процесс RFT организован в пять основных этапов: во-первых, настраивается оценщик для определения критериев сильных ответов. Затем загружаются данные обучения и проверки, и начинается работа по тонкой настройке. Во время обучения модель выдает несколько потенциальных ответов на каждую подсказку, каждый из которых оценивается оценщиком. Алгоритм градиента политики обновляет модель, отдавая предпочтение ответам с высокими баллами.
OpenAI демонстрирует RFT на примере безопасности: модель обучается отвечать на вопросы о внутренней политике безопасности компании, создавая объект JSON с полями для «соответствует» (да, нет или «нужно проверить») и «объяснение». Оцениваются как соответствие, так и качество объяснения. Обучающие данные
Читать на habr.com