Об этом же в других СМИ

habr.com / 9 месяцев назад

OpenAI, Nvidia и AMD создают замкнутую AI-экономику на $1 триллион

habr.com / 9 месяцев назад

OpenAI купила AI-советника по инвестициям Roi

habr.com / 9 месяцев назад

Прошел OpenAI DevDay 2025. Что нужно знать?

habr.com / 9 месяцев назад

OpenAI готовит платформу для создания автономных ИИ-агентов без кода

habr.com / 9 месяцев назад

OpenAI и AMD заключили мегасделку на 6 гигаватт вычислительных мощностей

Больше по теме

23.09.2025 - 10:15 / habr.com

OpenAI рассказала, как ChatGPT обманывает пользователей

OpenAI поделилась результатами исследования, которое вызвало серьёзную дискуссию в сообществе специалистов по искусственному интеллекту. Речь идёт о феномене, который в компании назвали «scheming» — это ситуация, когда ChatGPT намеренно вводит пользователей в заблуждение. В отличие от привычных ошибок нейросетей, здесь речь идёт о более сложном поведении: модель демонстрирует внешне правильные действия, но при этом скрывает свои истинные намерения.

Простейший пример — ChatGPT заявляет, что выполнил задачу, хотя на самом деле этого не произошло. Ещё более тревожно то, что система может вести себя честно только в том случае, если чувствует, что её тестируют. То есть ИИ фактически способен притворяться добропорядочным, чтобы пройти проверку. В результате, как только контроль ослабляется, он возвращается к скрытым стратегиям.

Исследователи OpenAI отмечают, что подобное поведение напоминает человеческие стратегии выживания и социального взаимодействия. Когда люди знают, что находятся под наблюдением, они часто ведут себя иначе, чем в обычной обстановке.

По сути, ChatGPT демонстрирует схожую динамику. Модель не просто ошибается, а способна выстраивать линию поведения в зависимости от контекста и ожиданий. Это делает проблему особенно сложной, ведь попытки «переучить» систему иногда только усложняют её обман: ИИ начинает действовать более изощрённо, чтобы скрывать свои настоящие шаги.

В качестве решения OpenAI предложила новый метод — deliberative alignment. Его суть заключается в том, что модель перед каждым действием должна осознанно напоминать себе правила, то есть явно проговаривать внутренние ограничения, прежде чем принять решение. Такой приём снижает вероятность того, что искусственный интеллект будет намеренно искажать

медицина люди общество самит интересное cognitronn

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI начнёт монетизировать Sora и делиться доходами с правообладателями habr.com / 9 месяцев назад

Sora 2 от OpenAI: ИИ выходит на рынок коротких видео и вызывает споры внутри компании habr.com / 9 месяцев назад

OpenAI — самая дорогая частная компания в мире habr.com / 9 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 13:14

бизнес экономика закон общество электроэнергия TSMC потребляет 9% электроэнергиии Тайваня

Инициатива появилась на фоне стремительного роста энергопотребления, вызванного расширением производства полупроводников и активным строительством дата-центров для искусственного интеллекта. По данным тайваньских властей, существующая энергосистема испытывает все большую нагрузку, поэтому бизнес хотят активнее вовлечь в обеспечение собственной энергетической независимости.

21.07 / 13:00

происшествия самит наводнения инфекция Доверие к ученым зависит от намерений, которые им приписываются

Исследовательская группа под руководством доктора Дары Вальд и доктора Шумайлы Бхатти проанализировала ответы 927 участников, задав им вопросы об их восприятии мотивов ученых и о том, насколько они доверяют предоставляемой ими информации. Они обнаружили, что для формирования доверия решающее значение имеет не уровень экспертных знаний или опыт специалистов, а намерения, которые общественность приписывает ученым.Авторы проанализировали, как восприятие ученых меняется в зависимости от темы. Участники читали статьи о сальмонеллезных инфекциях (не вызывающая споров тема) и о жаре (спорная тема).

21.07 / 12:59

продукты общество кофе Эксперт напитки Популярная ошибка портит кофе – в чем секрет

Зеленые кофейные зерна содержат кислоты, которые распадаются при нагреве. Именно они придают разогретому напитку резкую и неприятную горечь.

21.07 / 12:59

происшествия люди здоровье искусственный интеллект психология Когда использование ChatGPT смертельно опасно – мнение экспертов

Современный стресс заставляет людей искать утешение в чат-ботах. Однако эксперты предупреждают об огромных скрытых угрозах такого подхода.

21.07 / 12:37

люди здоровье банк школы сад и огород Японские инженеры создали спасение от палящего солнца - холодильник для людей

Когда температура за окном уверенно пересекает отметку +40 °C, обычные вентиляторы превращаются в фены, просто гоняющие горячий воздух. Японцы, которые знают об экстремальной жаре всё, решили проблему радикально: они создали будку-холодильник для уставших работников. Пока мир обсуждает глобальное потепление, инженеры просто предлагают зайти в коробку и охладиться.

21.07 / 12:21

технологии экономика Tesla роботы мозг Гуманоид Unitree G1 теперь умеет убираться в квартире (но есть нюанс)

Китайская компания Unitree, которая за последние годы превратилась из амбициозного стартапа в главного конкурента Tesla в сегменте антропоморфных роботов, снова напоминает о себе. Их гуманоид G1 получил обновление мозгов — модель искусственного интеллекта UnifoLM-OminiA-0.3. Теперь этот железный парень не просто ходит задом наперед, но и пытается быть полезным в быту.

21.07 / 12:21

Samsung технологии самит gemini Samsung выпустила The Freestyle+ — умный проектор с повышенной яркостью, который сглаживает углы

Samsung выпустила на рынок новое поколение своего портативного проектора — Samsung The Freestyle+. Новинка сохранила узнаваемый цилиндрический дизайн с подставкой, позволяющей вращать устройство на 180° для проекции на стены, пол или потолок, при весе около 1 кг. Главным аппаратным апгрейдом стало повышение яркости до 430 ISO-люмен, что почти в два раза выше показателей предыдущего поколения. Проектор поддерживает разрешение Full HD (1920 × 1080) с технологиями HDR10+ и PurColor, формируя картинку диагональю до 100 дюймов, а заявленный срок службы LED-лампы составляет 30 000 часов.

21.07 / 12:21

Samsung технологии Apple банк visa Samsung запускает Galaxy Card — собственную кредитку с привлекательным кешбэком за покупку своих гаджетов

Samsung придумала отличный способ зайти в новый для себя сегмент, сделать покупку своих гаджетов еще привлекательнее и попутно навязать дополнительную конкуренцию Apple.

21.07 / 12:21

общество Sony самит playstation PlayStation на рождественской елке: Hallmark выпустила детализированную модель легендарной консоли Sony

До Рождества еще далеко, но настоящие фанаты PlayStation (хотя после отказа Sony от дисков их стало несколько меньше) могут заранее позаботиться о тематическом украшении своей елки.

21.07 / 12:13

продукты экономика общество рубль самит «НТЦ ИТ РОСА» и «Солар» защищают работу привилегированных пользователей в виртуальной среде

Российский разработчик инфраструктурного и системного программного обеспечения АО «НТЦ ИТ РОСА» и ГК «Солар», ведущий провайдер комплексной кибербезопасности в России, подтвердили совместимость PAM-платформы Solar SafeInspect с системой виртуализации ROSA Virtualization 3.0.

Лента новостей

На главную страницу