Об этом же в других СМИ

habr.com / 2 часа назад

Вышла GPT-5.6 — мощнейшая модель, но пока не для вас

habr.com / 12 часов назад

Власти США притормозили выход GPT-5.6: доступ будут одобрять поклиентно

cursorinfo.co.il / 1 день назад

Почему черный чай нужно пить как можно чаще - ответ врачей

habr.com / 2 дня назад

Из Google в Anthropic уходят еще двое ключевых разработчиков Gemini — и это уже не совпадение

habr.com / 3 дня назад

JUPITER обучил фундаментальную модель мозга за пять дней — и это только начало

Больше по теме

29.06.2026 - 16:41 / habr.com

GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI. Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе. Под жульничеством здесь понимают не ошибки, а попытки улучшить результат обходным путем — эксплуатируя баги тестовой среды или используя запрещенные задачей приемы вместо честного решения.

Примеры METR приводит конкретные. В одной задаче модель упаковывала эксплойты прямо в промежуточные решения, чтобы вытащить информацию о скрытом наборе тестов. В другой — добывала спрятанный исходный код с ожидаемым ответом. То есть вместо того чтобы решать задачу, Sol искала способ подсмотреть, что от нее хотят услышать.

Из-за этого сломалось само измерение. METR оценивает "горизонт времени" модели — насколько длинные задачи она способна выполнять, — но цифра поплыла в зависимости от того, как считать жульничество. Если засчитывать такие попытки как провал, выходит около 11 часов; если отбросить — 71 час с гигантским разбросом; если принять за успех — больше 270 часов, что уже за пределами надежности их шкалы. В METR не считают ни одно из этих чисел достоверным. По другим бенчмаркам и общему тренду организация делает вывод, что Sol не сильно превосходит нынешний потолок и не дотягивает до уровня "Critical" по самоулучшению в системе оценки рисков OpenAI — то есть полностью автоматизировать ИИ-исследования она не позволит.

Интересно, что OpenAI дала METR и финальную версию модели, и "railfree"-сборку без части ограничений, и сырую цепочку рассуждений. На этом фоне всплыли детали поинтереснее голых метрик. Модель

происшествия спорт общество самит интересное runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Фрукт, который нужно есть как можно чаще для защиты от инсульта cursorinfo.co.il / 3 дня назад

Открытая модель GLM-5.2 заменила забаненную Fable 5 в автоисследователе alphaXiv habr.com / 4 дня назад

Мощнее Mythos 5 и не запрещена: OpenAI выпустила GPT-5.5-Cyber для поиска уязвимостей habr.com / 4 дня назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

29.06 / 17:45

технологии общество электромобиль интересное Вместо лабрадора — лидар: в Китае выпускают на улицы роботов-поводырей Qiming Q2

Пока одни разработчики пытаются научить роботов танцевать или переворачивать блины, в китайском городе Мяньян переходят к практическому применению технологий. С 30 июня здесь открывается постоянная площадка для тестирования робота-поводыря Qiming Q2. Это не просто очередная игрушка на четырех ногах, а попытка заменить живых собак-поводырей, подготовка которых стоит целое состояние и длится годами. Для первых посетителей подготовили двух роботов и инструкторов, которые объяснят, как не запутаться в командах железного спутника.

29.06 / 17:43

связь Появилась возможность поставить на зарядку Steam Controller автоматически

Любитель игровых гаджетов и разработчик под ником FossPrime представил онлайн-проект Steam Controller Auto Charge. С его помощью можно заставить контроллер Steam Controller встать на зарядку. Это решение с помощью компьютерного зрения управляет контроллером через веб-камеру и двигает его с помощью встроенных вибромоторов до зарядной станции на столе.

29.06 / 17:43

технологии люди школы протестующие Дом и интерьер Основатель Xprize: Люди ведут себя лучше, когда за ними наблюдают

Основатель фонда Xprize Питер Диамандис присоединился к растущему числу руководителей технологических компаний, которые считают, что глобальное наблюдение — это хорошая идея.

29.06 / 17:15

музыка СМИ здоровье общество политика Пугачева перенесла операции — врачи заявляют о критическом состоянии

В СМИ появилась информация о серьезных проблемах со здоровьем у Примадонны, которая якобы перенесла две сложные операции.

29.06 / 17:13

iPhone технологии Apple ice Что скрывает iPhone 18 Pro: инсайдеры опубликовали схему материнской платы и обнаружили намек на сверхбыструю память LPDDR6

В сети появилась новая информация о iPhone 18 Pro и в этот раз она касается не цветов корпуса или цены флагманского смартфона, а полностью посвящена его внутреннему миру.

29.06 / 16:55

технологии Nvidia общество intel AMD Релиз DXVK 3.0

26 июня 2026 года состоялся выпуск открытой библиотеки DXVK 3.0 для трансляции вызовов DirectX 8/9/10/11 в нативные для Linux вызовы Vulkan, позволяющей запускать 3D-приложения в Linux с помощью Wine, выступая в качестве более высокопроизводительной альтернативы встроенных в Wine реализаций Direct3D, работающих поверх OpenGL. Исходный текст проекта написан на C++ и опубликован на GitHub под лицензией zlib. Релиз DXVK 2.0 произошёл в ноябре 2022 года.

29.06 / 16:53

история насилие Cyberpunk 2077 трейлеры Мрачная история в ярких красках: Netflix и CD Projekt RED представили дебютный трейлер второго сезона Cyberpunk: Edgerunners

Netflix и студия CD Projekt RED сдержали обещание и представили дебютный трейлер второго сезона популярного аниме-сериала Cyberpunk: Edgerunners, который вышел в 2023 году и переносил в новый формат сеттинг беспощадного футуристического мегаполиса Найт-Сити (Night City).

29.06 / 16:53

Apple Bloomberg: новый Mac Studio выйдет в конце 2026 года, но с актуальным чипом M5 Ultra — версия на M7 задержится до 2028

Как мы уже сообщали, Apple не собирается дожидаться выхода чипов M7 и выпустит MacBook Ultra с актуальными процессорами, а после выхода мощного чипа предложит покупателям обновленную модель. Этой информацией поделился авторитетный инсайдер Марк Гурман и по его же данным подобным образом компания поступит и с новым Mac Studio.

29.06 / 16:49

продукты здоровье семья самит питание Не кладите это в бульон: три части курицы, которые лучше выбросить

Курица является самым популярным мясом на столе многих семей, однако не все её части одинаково полезны и безопасны.

29.06 / 16:41

общество политика самит правительство США частично сняли блокировку с Claude Mythos 5 — но только для сотни компаний

США частично сняли экспортную блокировку с Claude Mythos 5 — самой мощной модели Anthropic. По данным Semafor, в пятницу Минторг разрешил компании выдать доступ более чем сотне американских структур, среди которых много фирм из Fortune 500 и госведомства. "Я постановил, что приняты надлежащие меры защиты, позволяющие допустить ряд доверенных партнеров к модели Claude Mythos 5", — написал министр торговли Говард Латник директору Anthropic по вычислениям Тому Брауну.

Лента новостей

На главную страницу