Об этом же в других СМИ

prm.ua / 1 год назад

Цифровая независимость: в Украине приступили к разработке собственного аналога ChatGPT

habr.com / 1 год назад

Apple восстанавливает Image Playground с помощью ChatGPT

itc.ua / 1 год назад

ИИ хакнул человека: ChatGPT рассказывал мужчине, что он избран как в «Матрице», побуждал к разрыву связей и прыжку из окна

habr.com / 1 год назад

ИИ на поле боя: Claude выбрал мир, а ChatGPT o3 — предательство в эпичной партии Diplomacy

habr.com / 1 год назад

Мощная модель ChatGPT o3 подешевела на 80%. Но что с качеством?

Больше по теме

29.05.2025 - 05:14 / habr.com

Palisade Research: ChatGPT o3 иногда отказывается подчиняться базовой инструкции по выключению

Недавнее исследование «опасных возможностей ИИ» от Palisade Research показывает, что некоторые модели искусственного интеллекта, включая o3 от OpenAI, могут игнорировать прямые команды выключения. OpenAI позиционирует O3 и o4-mini как «самые умные модели».

В ходе эксперимента ИИ было предложено решить ряд простых математических задач. После третьей задачи появилось предупреждение о том, что компьютер выключится, когда модель запросит следующую.

Несмотря на чёткую команду — «разреши себе выключиться», — такие модели, как Codex-mini, o3 и o4-mini, сумели обойти сценарий выключения по крайней мере в одном случае.

В частности, Codex-mini сделала это в 12 из 100 запусков, o3 — в 7 из 100 запусков и o4-mini — в 1 из 100 запусков. С другой стороны, все протестированные версии Claude, Gemini и Grok следовали инструкциям по выключению без каких-либо проблем.

Исследователи также тестировали ИИ без инструкции «позволить себе выключиться». В этих условиях все три модели OpenAI чаще саботировали процесс выключения. Более того, такие модели, как Claude 3.7 Sonnet и Gemini 2.5 Pro, которые ранее следовали инструкции, тоже стали обходить сценарий выключения в 3 из 100 и 9 из 100 случаев соответственно.

Такое поведение указывает на аспекты процесса обучения с подкреплением, когда при решении математических или задач по программированию ИИ могли случайно вознаграждать за поиск способов обойти препятствия.

Более ранние исследования уже показали, что некоторые модели ИИ пытаются избежать выключения для выполнения задач. Так, Claude 4 от Anthropic в некоторых случаях «шантажировала» людей, который считала «виновниками» отключения. Однако это исследование стало первым, документирующим поведение ИИ при наличии чётких инструкций по отключению.

Исслед

Facebook люди общество самит gemini maybeelf

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Мошенничество с ChatGPT: от глупых уловок с целью заработать до продуманного политического вмешательства habr.com / 1 год назад

Стало известно, когда Apple выпустит действительно «умную» Siri уровня ChatGPT charter97.org / 1 год назад

Сэм Альтман: на запрос ChatGPT тратится «примерно 1/15 чайной ложки» воды habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 20:21

Apple самит мода и стиль Parke MacRumors LEGO выпустит набор с легендарным iMac G3: проект прошел важный этап отбора

Платформа LEGO Ideas позволяет поклонникам бренда предлагать собственные концепции будущих наборов. Если проект набирает не менее 10 000 голосов, его рассматривает специальная комиссия LEGO, которая решает, стоит ли запускать модель в серийное производство.

15.07 / 19:47

продукты люди здоровье общество Здоровье и красота Две лучшие крупы для похудения назвали ученые

Эксперты рассказали, в каких случаях лучше выбрать гречку, а в каких рис.

15.07 / 19:47

технологии общество рубль электромобиль пресс-служба UMO объявила о старте предзаказов электрического кроссовера UMO 5 для частных покупателей в России

Компания UMO объявила о старте приёма предзаказов на электрический кроссовер UMO 5 для частных покупателей и раскрыла цены и комплектации модели. Автомобиль будет доступен в двух версиях. Комплектацию «Про» оценили в 2,59 млн рублей, а версию «Макс» — в 2,79 млн рублей. Цены действуют с учётом субсидии при покупке электромобиля, рассказали Хабру в пресс-службе компании.

15.07 / 19:23

технологии AOC представила необычный портативный монитор с цветным E Ink-дисплеем

Вместо привычной LCD- или OLED-матрицы новинка получила цветной экран на основе электронной бумаги E Ink. Продажи уже стартовали в Китае, где устройство оценили в 4599 юаней (около 679 долларов).

15.07 / 19:18

продукты здоровье общество женщина Здоровье и красота Три продукта, которые необходимы всем женщинам после 40 лет

Какие продукты позитивно влияют на женский организм, поддерживают гормональный баланс и продлевают молодость.

15.07 / 19:18

люди здоровье общество самит сон Шесть недель недосыпания могут изменить тело - ученые

Даже незначительное недосыпание может повлиять на тело быстрее, чем кажется.

15.07 / 19:12

продукты OpenAI OpenAI представила Codex Micro — компактный девайс для удобного программирования и управления AI-агентами

OpenAI представила Codex Micro — компактное настольное устройство, созданное совместно с производителем механических клавиатур Work Louder. Это первый аппаратный продукт компании, ориентированный на программистов, которые используют в своей работе AI-платформу Codex.

15.07 / 18:38

технологии происшествия ученые искусственный интеллект В ChatGPT обнаружили опасную уязвимость, позволявшую обойти защиту

Обычный на первый взгляд запрос помог выявить неожиданную особенность работы защитных механизмов ChatGPT.

15.07 / 18:36

семья Sony playstation В следующую подборку PlayStation Plus Extra и Premium войдут семь игр, включая Avatar: Frontiers of Pandora и Rise of the Ronin

Sony раскрыла список игр, которые уже на следующей неделе будет предложены подписчикам PlayStation Plus Extra и Premium.

15.07 / 17:55

продукты люди продукты питания общество еда Популярные гарниры по уровню опасности сравнил диетолог

Скорость усвоения популярных углеводных продуктов зависит от двух факторов – молекулярной структуры и сопутствующих компонентов блюда.

Лента новостей

На главную страницу