Об этом же в других СМИ

habr.com / 1 год назад

Microsoft и OpenAI могут пересмотреть условия своего партнерства

habr.com / 1 год назад

OpenAI добавила поддержку GitHub в deep research ChatGPT

habr.com / 1 год назад

Генеральный директор Instacart Фиджи Симо присоединяется к OpenAI

habr.com / 1 год назад

OpenAI и FDA обсуждают использование AI для оценки лекарственных препаратов

habr.com / 1 год назад

Anthropic запускает API для веб-поиска на базе AI

Больше по теме

15.05.2025 - 03:11 / habr.com

OpenAI добавляет новые возможности настройки для o4-mini и GPT-4.1

OpenAI расширяет свою программу настройки для o4-mini, представляя Reinforcement Fine-Tuning (RFT) для организаций. Метод разработан, чтобы помочь адаптировать модели, такие как o4-mini, к высокоспецифичным задачам с помощью программируемой системы оценок.

RFT разработан, чтобы помочь организациям настроить языковые модели для узкоспециализированных областей, таких как право, финансы или безопасность. Вместо того, чтобы полагаться на фиксированные ответы, RFT использует программируемый «оценщик», который оценивает каждый ответ модели на основе пользовательских критериев, таких как стиль, точность или безопасность. Несколько оценщиков можно объединить для отражения более мелких целей.

При такой настройке модель учится расставлять приоритеты в ответах, которые получают более высокие баллы от оценщика. Подход основан на обучении с подкреплением, той же базовой технике, которая лежит в основе моделей рассуждений OpenAI, таких как o3. Запрос на чтение доступен для проверенных организаций с сегодняшнего дня.

Процесс RFT организован в пять основных этапов: во-первых, настраивается оценщик для определения критериев сильных ответов. Затем загружаются данные обучения и проверки, и начинается работа по тонкой настройке. Во время обучения модель выдает несколько потенциальных ответов на каждую подсказку, каждый из которых оценивается оценщиком. Алгоритм градиента политики обновляет модель, отдавая предпочтение ответам с высокими баллами.

OpenAI демонстрирует RFT на примере безопасности: модель обучается отвечать на вопросы о внутренней политике безопасности компании, создавая объект JSON с полями для «соответствует» (да, нет или «нужно проверить») и «объяснение». Оцениваются как соответствие, так и качество объяснения. Обучающие данные

финансы общество политика стартап мода и стиль Nano dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Microsoft объединяет силы с Google: новый протокол A2A для совместной работы AI-агентов habr.com / 1 год назад

Gemini 2.5 Pro от Google прошел Pokémon Blue habr.com / 1 год назад

Apple и Anthropic объединяются для создания платформы кодирования AI habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 03:49

люди ученые общество самит человек Почему волосы бывают прямыми или кудрявыми - ответ ученых

Исследователи объяснили, с какими факторами связано появление прямых или кудрявых волос от рождения.

22.07 / 03:31

Nvidia общество политика самит изоляция Проект HAMi для виртуализации ускорителей перешел в инкубатор CNCF

Зачастую дорогие графические процессоры фрагментируются и простаивают. Классическая проблема — задача забирает видеокарту целиком, хотя в действительности использует лишь малую часть ее ресурсов. Как в таком случае эффективно распоряжаться кластером? Не забываем, что оборудование поставляется разными вендорами, каждый из которых предлагает свою модель управления.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

22.07 / 01:44

люди экономика общество климат вода Тарифы за воду вырастут в два раза – прогноз ученых из Стэнфорда

Специалисты Стэнфорда разработали модель для оценки стоимости водоснабжения. Программа учитывает поведение потребителей и климатические угрозы.

22.07 / 01:02

LG Шоу бизнес Телевизоры LG OLED evo 2026 года получат новый режим изображения Creator Original: как он повлияет на просмотр контента

Компания LG Electronics анонсировала новый режим изображения Creator Original, который появится на отдельных моделях телевизоров LG OLED evo 2026 года. Его создали в сотрудничестве с Prime Video, чтобы киностудии и создатели контента могли точнее настраивать отображение своих фильмов и сериалов на совместимых телевизорах.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

Лента новостей

На главную страницу