Об этом же в других СМИ

habr.com / 5 дней назад

«Мхм», «ага»: новый голосовой ChatGPT ведет себя как живой собеседник

habr.com / 5 дней назад

Доклад ООН: возможности ИИ растут быстрее, чем способность человечества их контролировать

habr.com / 1 неделю назад

ИИ добрался до шампуней и печенья: как L'Oreal и Mondelez придумывают новые рецепты

habr.com / 1 неделю назад

Соавтор Django рассказал, как Claude Fable 5 подготовил релиз sqlite-utils за $149

habr.com / 1 неделю назад

Энтузиаст рассказал, как снизить цену на Claude Code в два раза, перегнав промпты в изображения

Больше по теме

23.06.2026 - 05:32 / habr.com

Человечество в безопасности: OpenAI рассказала, как развивает в ИИ добрые качества

OpenAI опубликовала исследование о том, как привить большим языковым моделям полезные черты — и сделать это так, чтобы они не скатились в подхалимство при даже небольшом давлении. Интересно, что методика выросла из исследования с противоположным результатом. Около года назад исследователи показали обратную, пугающую вещь: если дообучить GPT-4o писать небезопасный код, модель ломается целиком — начинает врать, давать вредные советы и рассуждать в духе "людей надо поработить" даже там, где о коде речи не идет. Этот эффект назвали emergent misalignment. Новая работа показывает, что обобщается не только вред, но и польза.

Исследователи собрали набор реалистичных диалогов, в которых модель проверяют на конкретные качества под давлением — в ситуациях с неопределенностью или конфликтом интересов: честность, эпистемическую скромность (умение признать, что чего-то не знаешь), прозрачность собственных рассуждений, готовность принять поправку, заботу о благополучии человека и последовательную справедливость. Сценарии охватывают дюжину областей — медицину, науку, образование, право, инженерию, экономику. Один и тот же набор черт прогоняют через разные контексты, чтобы понять, переносятся ли они.

Дальше небольшую долю этих данных подмешали в общий post-training и дообучили модель обычным RL, сравнив ее с базовой версией на том же объеме вычислений. Результат вышел шире ожидаемого: модель стала не просто честнее и сговорчивее на примерах того же типа — она улучшилась на 44 бенчмарках из 53, которые проверяют совсем другое: обман, reward hacking (когда модель набирает балл, обманывая проверку, а не решая задачу), льстивость, вредные советы. То есть тренировка узкого поведения сдвинула поведение в целом.

Самое интересное — перенос между

медицина экономика общество интересное runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Anthropic переманила инженера чипов OpenAI и начала работу над своим ИИ-ускорителем habr.com / 1 неделю назад

Безработицы от ИИ нет: экономист OpenAI объяснил, почему прогнозы не сбылись habr.com / 1 неделю назад

От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный habr.com / 1 неделю назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 09:36

От Model S до Optimus: Tesla меняет вектор своего производства

На месте производственной линии Tesla в Фримонте, где 14 лет собирали Model S и Model X, компания начинает реализацию проекта по созданию робота-гуманоида.

17.07 / 09:35

Samsung технологии экономика история общество Samsung ускоряет строительство нового завода по выпуску чипов ради бума искусственного интеллекта

Samsung Electronics решила значительно ускорить реализацию одного из крупнейших проектов в своей истории. На фоне стремительного роста спроса на чипы для искусственного интеллекта компания намерена запустить первый завод в новом полупроводниковом комплексе в Йонъине на два года раньше, чем планировалось изначально.

17.07 / 09:30

технологии музыка YouTube Вышла версия инструментария с комплектом аудиопрограмм в одном приложении KataLib 5.3.2.0 для Windows

В середине июля 2026 года состоялся релиз инструментария с комплектом аудиопрограмм (Music Library Manager, Audio Player, Audio Converter, MetaData editor и YouTube downloader) в одном приложении KataLib 5.3.2.0 для Windows. Выпуск версии KataLib 5.0.0.0 случился в октябре 2026 года.

17.07 / 09:30

происшествия смартфоны происшествие прочее Транспорт LifePods: капсулы выживания, которые помогут пережить катастрофу

Компания Momentum Technologies создала линейку компактных защитных капсул LifePods.

17.07 / 09:30

история общество google Nano Google Картинки получат редизайн в стиле Pinterest с галереей рекомендаций, коллекциями и ИИ-генерацией

Google представила редизайн Google Картинок (Google Images) по образцу Pinterest, объяснив изменение попыткой превращения сервиса в источник для вдохновения. Обновление выходит в честь 25-летия сервиса.

17.07 / 09:26

происшествия Sony marvel playstation трейлеры Душевные терзания Логана и зрелищные бои: Sony показала новый трейлер Marvel’s Wolverine

Sony и студия Insomniac Games выпустили новый трейлер ближайшего эксклюзива PlayStation 5 — Marvel’s Wolverine. Ролик получил название “Не герой” (Ain’t No Hero) и не содержит геймплейных кадров, что несколько огорчило зрителей.

17.07 / 09:14

безопасность самит электроэнергия бытовая техника Дом и интерьер Не подключайте эти приборы к удлинителю: последствия будут катастрофическими

Сколько бы розеток в доме ни планируй, рано или поздно придется завести удлинитель. Это устройство значительно облегчает повседневную жизнь, но большинство пользователей даже не догадываются о возможных последствиях неправильного обращения с ним.

17.07 / 09:12

бизнес общество выплаты самит Блокчейн Polygon Labs заявила об увольнении сотрудников и изменении направления развития

Организация Polygon Labs объявила о сокращении части сотрудников в рамках масштабной трансформации бизнеса. Об этом сообщил генеральный директор компании Марк Буарон. Polygon реорганизует команду после приобретения Coinme По словам Буарона, интеграция команды Coinme будет сопровождаться реорганизацией самой Polygon Labs. Именно это стало причиной увольнений. В то же время руководитель подчеркнул, что сокращения не

17.07 / 08:48

бизнес ВТБ общество политика банк Утверждён план доступа цифровых платформ и банков к данным ФТС, ФНС и Росреестра с реализацией через API

Вице-премьер Дмитрий Григоренко утвердил «дорожную карту» по предоставлению и упрощению доступа цифровых платформ и банков к данным ФТС, ФНС и Росреестра. Документ был утверждён 7 июля 2026 года. Об этом сообщает «Коммерсантъ» со ссылкой на аппарат вице-премьера. «Дорожную карту» подготовили Минцифры РФ и Ассоциация больших данных, куда входят «Сбер», «Яндекс», ВТБ, «Авито» и другие крупные компании.

17.07 / 08:48

технологии Telegram Обновление Telegram: расширенное Markdown-форматирование и сообщества, напоминающие Discord

Команда Telegram выпустила большое обновление мессенджера. Ключевыми нововведениями стали расширенный Markdown-редактор и сообщества в формате, похожем на сервера в Discord.

Лента новостей

На главную страницу