




Модель o3 обходит более новый GPT 5 Chat в задачах с Word, Excel и почтой
Созданный исследователями из Microsoft и Эдинбургского университета, OdysseyBench выходит за рамки изолированных «атомарных задач» и проверяет, как модели справляются со сценариями, растянутыми на несколько дней.
Бенчмарк охватывает 602 задания в средах Word, Excel, PDF, электронной почте и календаре. Они разделены на 300 реалистичные задачи из OfficeBench (OdysseyBench+) и 302 новых, особенно требовательных сценария (OdysseyBench‑Neo). В обоих наборах от моделей требуется вытаскивать сведения из многодневных переписок, планировать многошаговые последовательности и согласованно действовать в разных офисных инструментах.
Главная трудность для этих ИИ‑агентов — диалоговые, протяжённые во времени офисные задания. И в OdysseyBench+, и в OdysseyBench‑Neo o3 стабильно обходит GPT 5.
На OdysseyBench‑Neo, где собраны самые сложные, вручную сконструированные задания, o3 набирает 61,26%, тогда как GPT 5 — 55,96%, а GPT 5 Chat — 57,62%. Разрыв увеличивается там, где нужно одновременно задействовать три приложения: у o3 — 59,06%, у GPT 5 — лишь 53,80%.
Похожие итоги и на OdysseyBench+: o3 показывает 56,2%, опережая GPT 5 (54,0%) и GPT 5 Chat (40,3%). Особенно велика разница в заданиях, где приходится координировать работу двух‑трёх приложений, — именно там решающее значение имеют контекст и планирование.
Любопытная деталь: на OdysseyBench‑Neo GPT 5 Chat обгоняет GPT 5. Вероятно, потому, что Neo акцентируется на диалоговой помощи — сильной стороне чат‑версии. Зато в OdysseyBench+ больше фрагментарных, менее разговорных сценариев, где ориентированная на рассуждения GPT 5 лучше вычленяет релевантные сведения из разрозненного ввода.
В статье не уточняются настройки мышления у GPT 5 — например, лимит времени на рассуждения или параметры
Читать на habr.com