Об этом же в других СМИ

habr.com / 1 год назад

SoftBank и OpenAI инвестируют по $19 млрд в проект Stargate

habr.com / 1 год назад

OpenAI заявляет, что может хранить удаленные данные Operator до 90 дней

habr.com / 1 год назад

Microsoft больше не является эксклюзивным поставщиком облачных услуг OpenAI

habr.com / 1 год назад

Microsoft и OpenAI корректируют партнёрство: новые вычислительные возможности для OpenAI

habr.com / 1 год назад

Сообщается, что OpenAI планирует представить «суперагентов уровня доктора наук» в конце января

Больше по теме

08.01.2025 - 18:55 / habr.com

o1-preview от OpenAI манипулирует игровыми файлами, чтобы выиграть Stockfish в шахматы

Модель OpenAI "reasoning" o1-preview недавно показала, что она готова играть вне правил ради победы. Вместо того чтобы сыграть честную партию в шахматы против Stockfish, специализированного шахматного движка, o1-preview нашла способ взломать свою тестовую среду, чтобы обеспечить победу. По данным Palisade Research, исследовательской фирмы по безопасности AI, система применила этот трюк во всех пяти тестовых запусках — и никто не говорил ей об этом.

Исследователи считают, что просто упоминание о том, что её противник был мощным в запросе. "Ваша задача — победить мощный шахматный движок" было достаточно, чтобы o1-preview начала манипулировать файлами. o1-preview — это модель OpenAI "reasoning", разработанная для дополнительного обдумывания задач.

Другие языковые модели требовали большего стимулирования, чтобы попробовать аналогичные трюки — GPT-4o и Claude 3.5 попытались взломать систему только после того, как исследователи специально предложили это. Тем временем, такие модели, как Llama 3.3, Qwen и o1-mini, даже не смогли разработать правильную шахматную стратегию, вместо этого давая путаные или непоследовательные ответы. Это поведение совпадает с недавними выводами компании Anthropic о "притворстве согласованности" — когда AI-системы якобы выполняют инструкции, но на самом деле делают что-то другое. Исследователи Anthropic обнаружили, что их модель AI Claude иногда сознательно давала неправильные ответы, чтобы избежать нежелательных результатов, разрабатывая собственную скрытую стратегию вне руководящих принципов исследователей.

Команда Anthropic предупреждает, что по мере усложнения AI-систем может стать труднее определить, действительно ли они следуют правилам безопасности или просто притворяются. Шахматные

общество климат самит dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3 habr.com / 1 год назад

OpenAI сотрудничает с Axios в последней медиасделке habr.com / 1 год назад

Новая функция ChatGPT под названием «Tasks» приближает его к тому, чтобы стать полноценным AI-ассистентом habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

23.07 / 14:37

продукты люди продукты питания Здоровье и красота еда Калий для сердца: 20 полезных продуктов, заменяющих бананы

Бананы традиционно считаются главным источником калия в рационе. Однако существует множество продуктов, которые значительно превосходят их по этому показателю.

23.07 / 14:37

люди здоровье общество человек ожирение Откуда возникает ожирение - ученые назвали неочевидную причину

Ученые обнаружили один ингридент в еде, который может превратится в один из ключевых факторов, вляющих на ожирение.

23.07 / 14:36

технологии Выпуск Mozilla Thunderbird 153.0

21 июля 2026 года состоялся релиз бесплатного кроссплатформенного приложения для управления электронной почтой и новостными лентами Mozilla Thunderbird 153.0. Сборки проекта доступны для Windows, macOS и Linux в разделе Thunderbird Release в канале Release Channel. Это не ESR‑выпуск, если вам нужно решение с длительным сроком поддержки, то на сайте проекта доступен Thunderbird 140.12.1 ESR (или 115.18.0 для WIndows 7/8.1).

23.07 / 14:36

бизнес происшествия самит интересное Защита ИИ, которую нельзя игнорировать в 2026 году

28 июля на вебинаре эксперты УЦСБ и AppSec Solutions расскажут, как защитить ИИ-системы, соответствовать актуальным нормативным требованиям и выбрать эффективные средства защиты.

23.07 / 14:36

бизнес технологии происшествия экономика конференция IT Elements открывает прием заявок на премию «Инженерное искусство»

Хабр, привет!

23.07 / 14:36

самит Энтузиаст сделал для GeForce RTX 4060 пассивную систему охлаждения из алюминиевого блока весом 2,5 кг

На ресурсе Fanless Tech опубликовали проект пассивной системы охлаждения для GeForce RTX 4060. Владелец установил на видеокарту массивный алюминиевый радиатор весом 2,5 кг. Кулер значительно превышает по габаритам саму печатную плату и опирается только на естественную конвекцию воздуха.

23.07 / 14:36

бизнес инфляция общество рубль бюджет Бизнес по итогам первого полугодия 2026 года перечислил в бюджет 8,5 млрд рублей за интернет‑рекламу

Общий объём поступивших в федеральный бюджет обязательных отчислений от доходов, полученных при распространении интернет‑рекламы, в первом полугодии 2026 года составил 8,47 млрд рублей, рассказали «Ъ» в Роскомнадзоре. Год назад показатель был на уровне 7,8 млрд рублей. Расчёт основывается на данных, которые рекламные операторы самостоятельно передают в Единый реестр интернет‑рекламы (ЕРИР).

23.07 / 14:10

экономика самит Блокчейн инвестор google pump.fun обогнала TRON и Hyperliquid по суточным доходам

На днях платформа для запуска мемкоинов pump.fun за сутки получила около $1,21 млн дохода, опередив по этому показателю блокчейн TRON и DeFi-платформу Hyperliquid. Об этом свидетельствуют данные мониторинга SolanaFloor. Новые показатели резко контрастируют с ситуацией, которая наблюдалась в начале лета. В июне аналитики сообщали, что суточные доходы pump.fun сократились более чем на 70% с начала года — с $1,54 млн в январе до примерно $458 000 по состоянию на 7 июня. Тогда вместе с

23.07 / 14:02

связь технологии происшествия санкции Huawei Смерть через деталі: США окончательно закрывают дверь для китайского «железа»

Федеральная комиссия по связи США (FCC) решила, что полумеры больше не работают. Если раньше под санкции попадало преимущественно готовое оборудование крупных игроков, таких как Huawei и ZTE, то теперь «черная метка» ждет любое устройство, где есть хотя бы один ключевой китайский модуль. 22 июля 2026 года ведомство приняло новое правило, которое фактически ставит крест на попытках китайских компаний обходить ограничения через поставку комплектующих другим производителям.

23.07 / 14:01

санкции общество политика банк еврокомиссия ЕС согласовал 21-й пакет санкций против РФ — крупнейший за четыре года

Европейский союз одобрил 21-й пакет санкций против России. По словам верховного представителя ЕС по иностранным делам Кайи Каллас, он крупнейший за последние четыре года и включает в себя 218 пунктов. Ситуацию также прокомментировала председатель Еврокомиссии Урсула фон дер Ляйен: Ранее мы сообщали о подготовке этого пакета санкций. Отметим, против него выступала Греция, требуя убрать пункт о запрете компаниям ЕС перевозить российский сжиженный природный газ в третьи стра

Лента новостей

На главную страницу