Об этом же в других СМИ

habr.com / 10 месяцев назад

Международная группа учёных представила ИИ‑модель для генерации белковых молекул на основе латентной диффузии

gagadget.com / 10 месяцев назад

BMW представила серийный iX3 нового поколения — первую модель семейства Neue Klasse

habr.com / 10 месяцев назад

Droplet3D: новая модель для генерации 3D-объектов из видео

forbes.ua / 10 месяцев назад

«Более действенная модель». Шостак, Бродский, Даниляк и еще три бизнесмена и СЕО возглавили отраслевые комитеты Совета предпринимателей при ОП. Какие проблемы они решают?

habr.com / 10 месяцев назад

Tencent представила новую модель для перевода текста

Больше по теме

19.08.2025 - 20:15 / habr.com

Модель o3 обходит более новый GPT 5 Chat в задачах с Word, Excel и почтой

Созданный исследователями из Microsoft и Эдинбургского университета, OdysseyBench выходит за рамки изолированных «атомарных задач» и проверяет, как модели справляются со сценариями, растянутыми на несколько дней.

Бенчмарк охватывает 602 задания в средах Word, Excel, PDF, электронной почте и календаре. Они разделены на 300 реалистичные задачи из OfficeBench (OdysseyBench+) и 302 новых, особенно требовательных сценария (OdysseyBench‑Neo). В обоих наборах от моделей требуется вытаскивать сведения из многодневных переписок, планировать многошаговые последовательности и согласованно действовать в разных офисных инструментах.

Главная трудность для этих ИИ‑агентов — диалоговые, протяжённые во времени офисные задания. И в OdysseyBench+, и в OdysseyBench‑Neo o3 стабильно обходит GPT 5.

На OdysseyBench‑Neo, где собраны самые сложные, вручную сконструированные задания, o3 набирает 61,26%, тогда как GPT 5 — 55,96%, а GPT 5 Chat — 57,62%. Разрыв увеличивается там, где нужно одновременно задействовать три приложения: у o3 — 59,06%, у GPT 5 — лишь 53,80%.

Похожие итоги и на OdysseyBench+: o3 показывает 56,2%, опережая GPT 5 (54,0%) и GPT 5 Chat (40,3%). Особенно велика разница в заданиях, где приходится координировать работу двух‑трёх приложений, — именно там решающее значение имеют контекст и планирование.

Любопытная деталь: на OdysseyBench‑Neo GPT 5 Chat обгоняет GPT 5. Вероятно, потому, что Neo акцентируется на диалоговой помощи — сильной стороне чат‑версии. Зато в OdysseyBench+ больше фрагментарных, менее разговорных сценариев, где ориентированная на рассуждения GPT 5 лучше вычленяет релевантные сведения из разрозненного ввода.

В статье не уточняются настройки мышления у GPT 5 — например, лимит времени на рассуждения или параметры

медицина общество самит курс dmitrifriend Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Google DeepMind доказали: любой ИИ неизбежно учится строить модель мира habr.com / 10 месяцев назад

Audi официально представила новый концепт спортивного купе и он почти готов превратиться в серийную модель gagadget.com / 10 месяцев назад

Бюджетная модель серии Pixel 10 скоро появится в продаже: инсайдер раскрыл некоторые характеристики нового смартфона Google gagadget.com / 10 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

24.07 / 18:10

продукты экономика недвижимость общество техника 11 привычек, которые избавят от генеральной уборки

Автор делится простыми ежедневными привычками, которые помогают держать дом в чистоте и откладывать генеральную уборку без лишнего стресса и затрат времени.

24.07 / 18:10

происшествия ученые археология захоронения болезнь Битва или болезнь – ученые нашли странные могилы римских солдат

В Словакии археологи раскопали редкий лагерь времен Марка Аврелия с множеством спешно захороненных легионеров и их снаряжения.

24.07 / 18:05

технологии Выпуск обновления Media Player Classic — Home Cinema 2.7.4

21 июля 2026 года состоялся релиз открытого медиаплеера Media Player Classic — Home Cinema 2.7.4 (MPC‑HC). Исходный код решения написан на С++ и С и опубликован на GitHub под лицензией GNU General Public License v3.0. Версия MPC‑HC 2.0 вышла в январе 2023 года.

24.07 / 17:38

происшествия рубль предприятия TS Solution — первый в России контракт на совместную техническую поддержку UserGate

Компания TS Solution, сертифицированный партнер российского разработчика решений в области кибербезопасности UserGate, объявляет о заключении первого в России контракта с клиентом из финансового сектора на оказание совместной технической поддержки межсетевых экранов UserGate NGFW в рамках проекта вендора «Совместная техническая поддержка».

24.07 / 17:38

реклама бюджет OpenAI официально запустила рекламный сервис в ChatGPT

OpenAI запустила в ChatGPT сервис нативной рекламы, позволяющий рекламодателям показывать релевантные объявления в тот момент, когда пользователи изучают варианты, сравнивают предложения и принимают решения.

24.07 / 17:30

продукты происшествия ученые общество жизнь Новый секрет долгой жизни раскрыли ученые

Ученым удалось обнаружить максимальный срок человеческой жизни, который станет реальным в будущем.

24.07 / 17:30

ученые общество космос планеты звезда Ученые открыли мир, не похожий ни на что в космосе

Астрономы впервые обнаружили вероятный «экзоспутник» в системе CD-35 2722, однако его уникальная орбита и огромная масса поставили ученых в тупик.

24.07 / 17:30

связь общество психология психика Психология и отношения По-настоящему счастливые пары проводят последний час дня иначе

Психология отношений объясняет: даже один час перед сном может укрепить связь, если партнеры используют его осознанно и без отвлекающих факторов.

24.07 / 17:06

promo Как рассчитать и взыскать неустойку по ДДУ: что важно знать дольщику

Нарушение сроков передачи квартиры по договору долевого участия — одна из самых распространенных проблем на рынке новостроек. В подобных ситуациях закон предоставляет дольщику право требовать компенсацию за каждый день просрочки. Чтобы определить возможную сумму выплат, удобно использовать расчет неустойки калькулятор по ДДУ, который помогает быстро получить предварительный результат и понять перспективы дальнейшего взыскания.

24.07 / 16:38

технологии планшеты Компания Honor представила недорогой смартфон с очень ёмким аккумулятором

Honor X7e Plus 5G — это смартфон, оснащенный 6,87-дюймовым ЖК-экраном с разрешением HD+ и частотой обновления 120 Гц. Еще одним преимуществом этой панели является высокая яркость до 1020 нит.Внутри устройства установлен мобильный процессор Snapdragon 4 4-го поколения, поддерживаемый 8 ГБ оперативной памяти, а для хранения данных предусмотрено до 256 ГБ внутренней памяти.Смартфон может похвастаться очень ёмким аккумулятором — 8100 мАч, поддерживающим технологию быстрой зарядки мощностью 45 Вт.

Лента новостей

На главную страницу