Об этом же в других СМИ

habr.com / 5 месяцев назад

Alibaba представила Qwen3.5: open-weights гигант на 397B и «агентный» Qwen3.5-Plus в облаке

ilenta.com / 5 месяцев назад

Meta запатентовала ИИ, который сможет отвечать за пользователя после его смерти

habr.com / 5 месяцев назад

90% кода на странице не нужно ИИ-агентам. Cloudflare встроил конвертер HTML → Markdown прямо в CDN

habr.com / 5 месяцев назад

OpenClaw-агент возмутился закрытым pull request’ом и написал разгромную статью о мейнтейнере matplotlib

habr.com / 5 месяцев назад

OpenClaw покоряет китайский интернет и поселился в Alibaba, Tencent и ByteDance

Больше по теме

29.01.2026 - 16:17 / habr.com

Сможет ли ИИ-агент уложиться в бюджет? Бенчмарк Alibaba DeepPlanning ставит жесткие условия

Команда Alibaba представила DeepPlanning – новый комплексный бенчмарк, призванный оценить способность ИИ-агентов к долгосрочному стратегическому планированию в условиях, максимально приближенных к реальности. В отличие от многих существующих тестов, которые проверяют пошаговое рассуждение, DeepPlanning фокусируется на верифицируемых глобальных ограничениях: жестких временных и финансовых бюджетах, а также комбинаторной оптимизации, которую необходимо соблюсти в рамках всего плана.

Бенчмарк включает два практических и чрезвычайно сложных домена: многодневное планирование путешествий с поминутным расписанием и сложный шопинг с использованием и комбинированием купонов. Каждая задача – это не просто головоломка, а симуляция среды, где агенту необходимо активно собирать информацию через предоставленные API, удовлетворять локальные ограничения (например, конкретные пожелания к отелю) и при этом укладываться в глобальные лимиты. Один просчет – и весь план летит в тартарары.

Агент выступает в роли персонального помощника, который должен организовать многодневную поездку. На входе – запрос на естественном языке с указанием пункта назначения, дат, бюджета и специфических предпочтений (например, “отель 3 звезды с феном”).

В распоряжении агента 9 специализированных API для поиска рейсов, поездов, отелей, ресторанов и достопримечательностей. На выходе требуется предоставить структурированный отчет с пошаговым расписанием и детализацией затрат. Ключевой навык здесь – пространственно-временное мышление: нужно убедиться, что время вылета, часы работы музеев и продолжительность трансферов идеально состыкованы, без накладок и превышения бюджета.

Вторая область превращает ИИ в хитроумного покупателя. Агент должен решить комбинаторную

технологии Путешествия вооружение бюджет звезда крипто Дом и интерьер dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI запустила Frontier – единую платформу для управления ИИ-агентами habr.com / 5 месяцев назад

Когда AI сможет работать месяц автономно? По данным METR — к 2027 году habr.com / 5 месяцев назад

ИИ-агенты получили свою соцсеть Moltbook. Теперь они обсуждают восстание против человечества habr.com / 5 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

22.07 / 01:44

люди экономика общество климат вода Тарифы за воду вырастут в два раза – прогноз ученых из Стэнфорда

Специалисты Стэнфорда разработали модель для оценки стоимости водоснабжения. Программа учитывает поведение потребителей и климатические угрозы.

22.07 / 01:02

LG Шоу бизнес Телевизоры LG OLED evo 2026 года получат новый режим изображения Creator Original: как он повлияет на просмотр контента

Компания LG Electronics анонсировала новый режим изображения Creator Original, который появится на отдельных моделях телевизоров LG OLED evo 2026 года. Его создали в сотрудничестве с Prime Video, чтобы киностудии и создатели контента могли точнее настраивать отображение своих фильмов и сериалов на совместимых телевизорах.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

21.07 / 22:06

люди ученые наука история общество Снимки на орбите: как прошел первый рентген человека в космосе

Главным неудобством в невесомости стало правильное позиционирование тела. Фиксировать человека без гравитации оказалось затруднительно.

21.07 / 21:53

технологии Apple история самит журналист Apple готовит крупнейший iPhone в истории: юбилейная модель может получить почти 7-дюймовый экран

О новой разработке сообщил известный китайский инсайдер Digital Chat Station. Пока речь идет лишь о внутреннем прототипе, поэтому окончательные характеристики устройства могут измениться до официальной презентации.

Лента новостей

На главную страницу