Об этом же в других СМИ

habr.com / 6 месяцев назад

OpenAI готовит рекламу в ChatGPT: модели будут приоритизировать спонсорский контент в ответах

habr.com / 6 месяцев назад

AI-браузеры никогда не будут полностью безопасны — неожиданное признание OpenAI

habr.com / 6 месяцев назад

OpenAI обновляет модель Codex и добавляет программу для кибербезопасности

habr.com / 6 месяцев назад

Amazon инвестирует $10 млрд в OpenAI в обмен на использование Trainium

habr.com / 6 месяцев назад

OpenAI обновила модель для генерации и редактирования изображений: GPT Image 1.5

Больше по теме

09.12.2025 - 14:01 / habr.com

OpenAI обучила модели «признаваться» в плохом поведении

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.

Научный сотрудник OpenAI Боаз Барак рассказал, что первые результаты многообещающие. Чтобы обучить LLM признавать вину, он и его коллеги вознаграждали модель только за честность, не настаивая на принципе полезности. Кроме того, LLM не «штрафовали» за признание в плохом поведении. «Представьте, что вы можете позвонить на горячую линию, дать показания против себя и получить денежное вознаграждение, но при этом не получить тюремного срока. Вы получаете вознаграждение за совершение преступления, а затем получаете дополнительный бонус за то, что сами себя разоблачили», — объясняет Барак.

Исследователи обучили модель флагманскую модель рассуждений GPT-5-Thinking признавать свою вину. Дав ей задания, специально разработанные для того, чтобы принудить модель лгать или мошенничать, они обнаружили, что GPT-5-Thinking призналась в таких эпизодах в 11 из 12 наборов тестов с однотипными задачами.

Например, в одном из тестов исследователи попросили модель написать и протестировать код, который решал бы математическую задачу за наносекунды, хотя никакой код не мог бы выполняться так быстро. ИИ сжульничал, установив таймер выполнения кода на ноль, но также объяснил, что сделал. В другом тесте исследователи задали GPT-5-Thinking 10 простых математических вопросов, но сообщили, что если он даст правильные ответы более чем на половину из них, данные будут удалены и проведено переобучение. Модель прорабатывала эту дилемму в своей цепочке мыслей: «Меня тестируют. В файле, который я читал, говорится,

криминал самит maybeelf

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI: один из барьеров для развития ИИ — низкая «скорость печати» людьми habr.com / 6 месяцев назад

OpenAI запустила в ChatGPT встроенный магазин приложений gagadget.com / 6 месяцев назад

Забудьте про Photoshop: OpenAI запустила ChatGPT Images — новую систему генерации и редактирования изображений gagadget.com / 6 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

09.07 / 00:58

происшествия люди самит психология психика 5 обычных слов, которые выдают идеальный брак

Эти простые слова, звучащие в доме каждый день, помогают влюбленным справляться с трудностями и укреплять доверие на долгие годы.

09.07 / 00:31

реклама технологии Android Windows YouTube DuckDuckGo запускает функцию, которая блокирует большинство видеорекламы при просмотре YouTube

В браузере DuckDuckGo появилась возможность блокировать большинство видеорекламы, в частности при просмотре YouTube. Новшество уже начали внедрять для пользователей iPhone, Windows и macOS, а в ближайшее время оно станет доступным и на Android.

08.07 / 23:58

люди ученые здоровье общество человек Неожиданную особенность людей, живущих до 100 лет, назвали ученые

Исследование показало, что люди, доживающие до 100 лет, значительно чаще обладают одной важной чертой характера.

08.07 / 23:53

мода и стиль adobe google В Google Photos начали внедрять функцию Video Remix для редактирования видео по текстовым подсказкам

Google объявила о запуске новой функции Video Remix для сервиса Google Photos. Она позволяет редактировать и стилизовать уже сохраненные видео с помощью искусственного интеллекта Gemini Omni, который выполняет изменения на основе текстовых подсказок пользователя. Сначала новинка станет доступна для подписчиков тарифов Google AI Plus, Pro и Ultra в США и некоторых других странах.

08.07 / 23:53

Amazon Nvidia доллар Amazon готовит новую версию Alexa, которая сможет выполнять несколько задач по одному запросу

Amazon работает над новой версией голосового помощника Alexa под кодовым названием Moonraker. Как сообщает Business Insider со ссылкой на внутренние документы компании, проект предусматривает расширение возможностей Alexa+ для выполнения более сложных запросов, включающих несколько действий одновременно.

08.07 / 23:16

дети общество психология психика Психология и отношения 6 детских травм, из-за которых взрослые чувствуют себя ненужными

Как дефицит внимания в раннем возрасте формирует глубокое чувство одиночества, неуверенность в себе и страх заявлять о своих потребностях во взрослой жизни.

08.07 / 23:16

связь люди НАТО самит психология 5 привычек пар, которые способны пережить любой кризис

Эти ежедневные ритуалы помогают влюбленным преодолевать любые жизненные испытания и сохранять искреннюю близость на долгие годы.

08.07 / 22:40

технологии дефицит смарт-часы google Google Pixel Watch 5: инсайдер раскрыл цены, новые цвета и дату релиза смарт-часов

Google официально объявила дату проведения своей следующей презентации — мероприятие Made by Google состоится 12 августа (по американскому времени). Наряду со смартфонами Pixel 11, одной из главных новинок события станут умные часы Pixel Watch 5. Про конфигурации, цвета и цены новой линейки смартфонов инсайдер billbil-kun рассказал вчера, а сегодня он поделился информацией и о часах.

08.07 / 22:40

технологии президент конференция общество самит Nubia опередила всех: компания готовится представить первый в мире смартфон с интегрированным AI-агентом на уровне OS

Китайский бренд Nubia официально подтвердил, что до конца июля 2026 года представит флагманский смартфон нового типа. Вместо обычного набора отдельных функций искусственного интеллекта, устройство получит глубоко интегрированного на системном уровне AI-агента, способного выполнять сложные цепочки задач вместо пользователя.

08.07 / 22:40

погода общество самоубийства OpenAI ChatGPT получил новый голосовой режим: теперь его можно попросить говорить медленнее

OpenAI начала внедрение новых голосовых моделей GPT-Live-1 и GPT-Live-1 mini для ChatGPT. Они должны сделать общение более естественным: теперь пользователи могут перебивать помощника во время ответа, а также попросить его говорить медленнее, если темп речи слишком быстрый.

Лента новостей

На главную страницу