Об этом же в других СМИ

habr.com / 4 месяца назад

Первая нативная песочница для ИИ-агентов на Windows: OpenAI выпустила Codex App

habr.com / 4 месяца назад

«Наш контракт надежнее»: OpenAI раскрыла детали сделки с Пентагоном — и бросила вызов Anthropic

habr.com / 4 месяца назад

ИИ-сообщество начало «отменять» OpenAI за контракт с Пентагоном

habr.com / 4 месяца назад

Сотрудники Google и OpenAI поддержали Anthropic в споре с Пентагоном

habr.com / 4 месяца назад

Маск проиграл OpenAI в суде — но главное дело на $134,5 млрд еще впереди

Больше по теме

17.02.2026 - 10:38 / habr.com

OpenAI заявила о 6 решениях из 10 в «самом сложном тесте для ИИ». Математики не согласны

Группа из 11 ведущих математиков — среди которых филдсовский лауреат Мартин Хайрер — опубликовала 5 февраля десять исследовательских задач, которые никогда не появлялись в открытом доступе. Инициатива получила название First Proof и задумывалась как первый честный тест способности ИИ решать задачи уровня реальной математической науки, а не олимпиад. Зашифрованные ответы были раскрыты сегодня, 14 февраля, — и результаты оказались противоречивыми. Авторы бенчмарка, самостоятельно протестировавшие публичные модели, получили лишь два корректных доказательства из десяти — для задач №9 и №10. При этом главный ученый OpenAI Якуб Пахоцки заявил, что внутренняя модель компании с высокой вероятностью решила шесть задач.

Разрыв между "2 из 10" и "6 из 10" объясняется несколькими факторами. OpenAI использовала еще не выпущенную модель, которую тестировали целую неделю при "минимальном человеческом контроле" и с "экспертной обратной связью" от математиков. Однако правила First Proof прямо запрещают человеческие математические подсказки. "Если в процессе участвуют люди, как оценить, где заканчивается человек и начинается ИИ?" — задается вопросом одна из авторов бенчмарка, профессор Гарварда Лорен Уильямс. Математики уже указали на возможные дыры как минимум в одном из шести решений OpenAI.

Задачи First Proof — это так называемые леммы: вспомогательные теоремы, которые возникают в ходе реальных исследований. Их могли бы поручить сильному аспиранту, но для решения требуется не просто комбинирование известных техник, а определенная оригинальность мышления. Задачи охватывают девять разных областей — от алгебраической комбинаторики до стохастического анализа. Ответы никогда не публиковались в интернете, что исключает утечку в обучающие

люди Олимпиада общество профессор мода и стиль runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

ИИ-агент сотрудника OpenAI подарил попрошайке мемкоины на $40 тысяч habr.com / 4 месяца назад

Самый амбициозный ИИ-проект разваливается на глазах: OpenAI уходит из Stargate habr.com / 4 месяца назад

$665 млрд расходов к 2030-му: OpenAI пересмотрела прогнозы — и стало страшнее habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

10.07 / 09:59

Samsung технологии Samsung начала выпуск первого SSD с PCIe 6.0: скорость чтения достигает 28 400 МБ/с

Новинка предназначена для серверов и дата-центров, где активно используются системы искусственного интеллекта. По мере роста размеров нейросетевых моделей и объемов обрабатываемых данных требования к скорости хранения информации становятся все выше, поэтому переход на PCIe 6.0 выглядит закономерным.

10.07 / 09:59

здоровье общество магия самит корабли Это мало кто знает: почему подлодки включают красный свет ночью

Когда в фильмах показывают напряженные сцены внутри подводной лодки, отсек часто заливает красный свет. Но это вовсе не голливудский спецэффект. В реальной жизни на атомных субмаринах, которые месяцами находятся в автономном плавании, ночью действительно включают именно такое освещение.

10.07 / 09:57

наука SpaceX история общество ракета «Исторический прорыв». Китай впервые в истории успешно вернул ракету с орбиты на Землю

Ускоритель китайской ракеты Long March 10B после запуска на орбиту сумел успешно вернуться на Землю: первая ступень мягко села в сетчатую конструкцию на корабле в море. Таким образом, у Китая появилась первая многоразовая ракета, подобно Falcon 9 от SpaceX. Примечательно, что это был дебютный старт для этой космической системы.

10.07 / 09:46

люди здоровье общество мужчина женщина Неожиданная привычка, которая помогает сжигать жир – врачи

Исследования показывают, что полноценный сон является важнейшим, но часто недооцениваемым фактором контроля веса.

10.07 / 09:35

Nvidia финансирование Apache intel AMD Релиз ZLUDA 6 (инструментарий для запуска CUDA-приложений на GPU AMD), где PhysX теперь работает без видеокарты Nvidia

Разработчик Анджей Яник (Andrzej Janik) опубликовал на GitHub обновлённую версию инструментария ZLUDA 6 для запуска CUDA‑приложений на GPU AMD. Исходный код проекта написан на Rust и распространяется под лицензиями MIT и Apache 2.0. Релиз ZLUDA 4 состоялся в конце 2024 года. Версия ZLUDA 5 вышла в октябре 2025 года.

10.07 / 09:35

Apache Вышло обновление FreeRDP 3.28

6 июля 2026 года состоялся выпуск открытого проекта FreeRDP 3.28. Это реализация протокола удалённого рабочего стола Microsoft (Remote Desktop Protocol — RDP), опубликованная на GitHub под лицензией Apache License 2.0. Исходный код проекта написан на С и С++. Разработка решения ведётся более 15 лет. Стабильная версия FreeRDP 3.20 вышла в декабре 2025 года.

10.07 / 09:35

закон общество ibm intel Зомби-иск «Кому принадлежит Unix?» снова всплыл на поверхность

Давний спор между SCO и IBM о правах собственности на Unix и Linux всплыл вновь, на этот раз из-за компании-преемника SCO — Xinuos, которая пытается предъявить старые претензии по лицензированию и авторским правам, что связаны с «Проектом Монтерей».

10.07 / 09:26

технологии Qualcomm HMD Skyline 2 рассекречен до анонса: появились изображения и характеристики нового смартфона

По данным источника, который ранее неоднократно публиковал достоверную информацию об устройствах HMD, HMD Skyline 2 выйдет в трех цветах: синем, черном и желтом.

10.07 / 09:17

бизнес криминал общество банк расследование 80% подозрительных транзакций в Литве зафиксировали именно в Revolut: ответ банка

Литовская Служба расследования финансовых преступлений (FNTT) раскрыла информацию, что около 80% всех сообщений о подозрительных транзакциях в стране поступают от Revolut Bank. Об этом заявил один из первых инвесторов Revolut Макс Карпис. По словам регулятора, такой показатель связан с масштабной автоматизацией процессов мониторинга и использованием ИИ для выявления потенциального мошенничества. Revolut генерирует большинство сообщений о подозрительных операциях Директор FNTT Роландас Кишкис

10.07 / 09:07

Samsung технологии смартфон приложение лайфхак Эти пять приложений для Android лучше удалить: в чём причина

Владельцам смартфонов на Android часть приложений можно безопасно удалить или отключить без ущерба для работы устройства. В первую очередь это касается приложений операторов мобильной связи, фирменных сервисов производителей, дубликатов системных приложений, стороннего программного обеспечения и отдельных антивирусных программ.

Лента новостей

На главную страницу