Об этом же в других СМИ

habr.com / 2 месяца назад

Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур

incrypted.com / 2 месяца назад

BingX запустила платформу EventX для торговли на основе реальных событий

habr.com / 2 месяца назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

gagadget.com / 2 месяца назад

DeepSeek вспомнил всё: в популярном ИИ-сервисе появился поиск по истории чатов

habr.com / 2 месяца назад

Машинное обучение в реальных условиях: проверьте свои силы на Yandex ML Challenge

Больше по теме

01.05.2026 - 15:10 / habr.com

DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации - 29.81 против 47.65 токенов в секунду.

DeepSeek v4:

Лучше финализирует задачи (0.69 vs 0.63)

Продуктивнее в длинных сценариях (0.73 vs 0.66)

Слабее в формальной дисциплине (0.48 vs 0.53)

Медленнее через API (29.81 tok/s)

GLM 5.1:

Аккуратнее следует формальным требованиям (0.53 vs 0.48)

Меньше критических сбоев (0.52 vs 0.47)

Быстрее на on-premise (47.65 tok/s)

Слабее на финализации (0.63 vs 0.69)

Профили моделей разные, и выбор зависит от приоритетов: если важнее надежный финал и продуктивность - DeepSeek, если критична формальная дисциплина и скорость отклика на своей инфраструктуре - GLM 5.1.

🔥 Акция до конца майских праздников - авторежим со скидкой 60% по минутам.

В режиме Auto по умолчанию сейчас стоит GPT‑5.5 с максимальным reasoning (xHigh). Если по какой-то причине модель недоступна — автоматически подключается Opus 4.7. Прогнали через бенчмарк GPT‑5.5 против GPT‑5.4: +20% закрытых задач, 100% success rate инструментов, агент доводит до конца там, где старый сдавался.

🔥Самое время проверить, как далеко агент дойдёт без вашего участия. → Установить плагин (https://veai.ru/download)

крипто eps

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Конец независимости DeepSeek: лаборатория Ляна Вэньфэна идет за деньгами habr.com / 2 месяца назад

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg habr.com / 2 месяца назад

СМИ: DeepSeek приблизился к оценке в $45 млрд после интереса китайского «Большого фонда» incrypted.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

22.07 / 01:44

люди экономика общество климат вода Тарифы за воду вырастут в два раза – прогноз ученых из Стэнфорда

Специалисты Стэнфорда разработали модель для оценки стоимости водоснабжения. Программа учитывает поведение потребителей и климатические угрозы.

22.07 / 01:02

LG Шоу бизнес Телевизоры LG OLED evo 2026 года получат новый режим изображения Creator Original: как он повлияет на просмотр контента

Компания LG Electronics анонсировала новый режим изображения Creator Original, который появится на отдельных моделях телевизоров LG OLED evo 2026 года. Его создали в сотрудничестве с Prime Video, чтобы киностудии и создатели контента могли точнее настраивать отображение своих фильмов и сериалов на совместимых телевизорах.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

21.07 / 22:06

люди ученые наука история общество Снимки на орбите: как прошел первый рентген человека в космосе

Главным неудобством в невесомости стало правильное позиционирование тела. Фиксировать человека без гравитации оказалось затруднительно.

21.07 / 21:53

технологии Apple история самит журналист Apple готовит крупнейший iPhone в истории: юбилейная модель может получить почти 7-дюймовый экран

О новой разработке сообщил известный китайский инсайдер Digital Chat Station. Пока речь идет лишь о внутреннем прототипе, поэтому окончательные характеристики устройства могут измениться до официальной презентации.

Лента новостей

На главную страницу