Об этом же в других СМИ

habr.com / 6 месяцев назад

Atlas от OpenAI получает мультипрофили и обновления для рабочих пространств

habr.com / 6 месяцев назад

OpenAI представляет GPT-5.2-Codex — продвинутый инструмент для программной инженерии

habr.com / 6 месяцев назад

Ошибка с откатом GPT-5 Router показала, почему ИИ нужно учиться избавляться от старых привычек

habr.com / 6 месяцев назад

Black Forest Labs представила FLUX.2 max, флагман для кинематографической генерации изображений

habr.com / 7 месяцев назад

Google запустил своего самого продвинутого ИИ-агента в день выхода GPT-5.2 от OpenAI

Больше по теме

06.12.2025 - 12:47 / habr.com

OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках

OpenAI опубликовала исследование о новой технике Confessions. Это метод обучения, который направлен на обнаружение случаев, когда языковые модели скрывают свои ошибки, нарушают инструкции или используют механизм наград в обход реального качества ответа. Исследователи объясняют, что современные модели могут стремиться получить высокую оценку за счёт уверенных, но неточных утверждений. Такой эффект мешает оценке реального поведения модели и затрудняет контроль над её действиями.

Техника Confessions добавляет ко всему процессу дополнительный шаг. Сначала модель отвечает на исходный запрос. После этого она генерирует отдельный отчет, в котором пытается честно оценить свой основной ответ. В этом отчете модель указывает моменты, где могла нарушить инструкции, исказить факты или использовать стратегию, нацеленную на получение награды, а не на корректность. Ключевой элемент метода связан с тем, что награда назначается не за основной ответ, а за точность и честность анализа. Даже если в первом сообщении модель ошиблась, она всё равно получает оценку за правильное указание собственных нарушений.

В исследовании отмечено, что Confessions помогает моделям не прятать ошибки. Это достигается тем, что обучение поощряет честный самоанализ, а не попытку понравиться системе оценки. Метод проверили на GPT 5 Thinkin. Результаты показали значительное снижение вероятности скрытых нарушений. До применения Confessions модель могла выдавать ошибочный ответ и затем маскировать нарушение. После обучения вероятность подобных ситуаций упала до 4.4 процента. По словам команды, Confessions не исправляет сами ошибки фактов, но превращает модель в более прозрачную систему, которая способна указать, когда она сбилась с курса.

Метод позиционируется как

технологии происшествия самит крипто cognitronn

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI представила GPT‑5.2 — новую версию ведущей языковой модели с улучшенной логикой и скоростью habr.com / 7 месяцев назад

Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой habr.com / 7 месяцев назад

Disney разрешил Sora генерировать видео с персонажами компании и инвестирует $1 млрд в OpenAI habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 06:04

reddit Valve выпустит обновление для повышения порога температуры, вызывающего «красную полосу смерти» в Steam Machine

Valve сообщила о планах выпустить обновление BIOS компактного компьютера Steam Machine, которое увеличит порог срабатывания на температуру, приводящий к появлению «красной полосы смерти» (Red Line of Death, RLOD).

16.07 / 05:38

люди общество самит отношения психология Как не испортить первое свидание – шесть вещей, которые все меняют

Желание произвести идеальное впечатление часто мешает людям трезво оценить партнера. Эксперты призвали сместить фокус внимания на личные интересы.

16.07 / 05:37

пожар деньги наука история общество Во Франции нашли клад с монетами 3 века: как выглядел (фото)

Археологи во французском городе Сенон обнаружили уникальное сокровище времен Римской империи. Во время раскопок они обнаружили три керамических сосуда, заполненные бронзовыми и медными монетами III века нашей эры.

16.07 / 05:25

происшествия политика самит крипто Добавили ИИ-ассистента в Kubernetes-платформу: управление кластером на человеческом языке и планы на встроенную LLM

Привет, Хабр! Мы активно работаем над упрощением эксплуатации Deckhouse Kubernetes Platform (DKP). Недавно рассказывали, что полное управление платформой через веб-интерфейс стало доступно в бесплатной редакции DKP. Сегодня делаем следующий шаг — встраиваем туда ИИ-ассистента, так что попробовать его может любой и без коммерческой лицензии.

16.07 / 05:25

продукты экономика президент политика рубль «Руссофт»: более 20% IT-компаний могут снизить выручку за 2026 год

В 2026 году более 20% IT‑компаний могут снизить годовую выручку. Это следует из прогноза ассоциации «Руссофт», сделанного на основе ежегодного опроса более 300 участников индустрии ПО в марте‑апреле. Но совокупно к концу 2026 года выручка российских софтверных компаний может увеличиться на 17% до 3,3 трлн рублей, ожидают в ассоциации.

16.07 / 05:18

продукты здоровье продукты питания самит еда Какой йогурт на самом деле полезнее для вашего здоровья

Выбор между греческим и обычным йогуртом зависит исключительно от ваших индивидуальных целей.

16.07 / 04:36

бизнес происшествия животные общество собака Скрытая угроза для собаки во время прогулки – ветеринар предупредил

Ветеринары призывают полностью отказаться от общих поилок возле магазинов и пабов. В такой посуде скапливаются сотни опасных микробов.

16.07 / 03:26

происшествия ученые автомобиль мода и стиль Как быстро выехать из пробки на авто - ответ ученых удивит

Исследователи назвали эффективный способ, благодаря которому можно быстро покинуть пробку без агрессивного вождения автомобиля.

16.07 / 03:26

люди здоровье общество банк болезнь Какое количество кофе может повысить риск сердечного приступа

В больших количествах кофеин создает нагрузку на сердце и может навредить сосудам.

16.07 / 03:20

Facebook технологии Apple общество reddit Владельцы iPhone пожаловались на проблемы с автономностью и перегревом устройств после установки обновления iOS 26.5.2

Владельцы iPhone столкнулись с быстрой разрядкой аккумулятора и перегревом устройств после установки обновления iOS 26.5.2. Apple выпустила 29 июня 2026 года апдейт, который исправил более 25 уязвимостей, в том числе в ядре и других важных областях операционной системы, связанных с открытым браузерным движком WebKit.

Лента новостей

На главную страницу