Об этом же в других СМИ

habr.com / 2 месяца назад

GPT-5.5 засветилась в Codex — релиз возможен в ближайшие часы

habr.com / 2 месяца назад

Razer представила Atlas Pro — стеклянный коврик для мыши толщиной 1,9 мм

habr.com / 3 месяца назад

Google собрал «ударную группу» против Claude — через пять месяцев после Code Red у OpenAI

gagadget.com / 3 месяца назад

Razer представила Atlas Pro — ультратонкий коврик для мыши из закаленного стекла

habr.com / 3 месяца назад

Как менеджер Grafana за вечер собрал ИИ, который сам разбирает ночные сбои — и обучается после каждого

Больше по теме

09.04.2026 - 11:35 / habr.com

GLM-5.1 собрала Linux-десктоп в браузере за 8 часов и взяла SOTA на SWE-Bench Pro

Китайская Z.ai выпустила подробный рассказ о GLM-5.1 — обновлении флагманской модели, которое заняло первое место на бенчмарке SWE-Bench Pro для сложных инженерных задач. Результат 58,4 балла оказался выше, чем у GPT-5.4 (57,7), Claude Opus 4.6 (57,3) и Gemini 3.1 Pro (54,2). Веса опубликованы на HuggingFace под лицензией MIT.

Главное в релизе — не сами цифры, а заявленная концепция. Команда Z.ai пишет, что предыдущие модели (включая GLM-5) быстро исчерпывают арсенал инструментов: применяют знакомые приемы в первых попытках, выходят на плато и больше не улучшаются, сколько времени им ни дай. GLM-5.1 проектировали так, чтобы она оставалась полезной на длинной дистанции — разбивала задачу на части, ставила эксперименты, читала результаты, находила узкие места и пересматривала стратегию через сотни итераций и тысячи вызовов инструментов.

Чтобы это показать, авторы прогнали модель через три сценария с разной степенью обратной связи. Самый зрелищный — задача собрать в браузере веб-приложение, имитирующее десктоп Linux, без стартового кода и макетов. В обычном прогоне модели обычно сдаются быстро: рисуют каркас с панелью задач и парой окон-заглушек и объявляют задачу выполненной. GLM-5.1 запустили в простой обвязке, которая после каждого круга заставляла модель пересматривать собственный результат и решать, что улучшить. Цикл крутился восемь часов, и к концу в браузере работал полноценный десктоп с файловым менеджером, терминалом, текстовым редактором, монитором системы, калькулятором и играми — все в едином визуальном стиле.

Второй кейс — открытый бенчмарк VectorDBBench, где модель должна реализовать поиск ближайших соседей по вектору на скелете кода на Rust. Лучший прежний результат за один сеанс из 50 ходов — 3547 запросов в

связь самит gemini runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

+185% за 13 часов: как Kimi K2.6 переписала 8-летний движок habr.com / 3 месяца назад

Релиз Postgres Pro Shardman 18.3.2: катастрофоустойчивость DRS и высокопроизводительная маршрутизация на стороне клиента habr.com / 3 месяца назад

«Сжигай токены ещё быстрее»: Anthropic перекроил десктоп Claude Code habr.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

24.07 / 18:10

продукты экономика недвижимость общество техника 11 привычек, которые избавят от генеральной уборки

Автор делится простыми ежедневными привычками, которые помогают держать дом в чистоте и откладывать генеральную уборку без лишнего стресса и затрат времени.

24.07 / 18:10

происшествия ученые археология захоронения болезнь Битва или болезнь – ученые нашли странные могилы римских солдат

В Словакии археологи раскопали редкий лагерь времен Марка Аврелия с множеством спешно захороненных легионеров и их снаряжения.

24.07 / 18:05

технологии Выпуск обновления Media Player Classic — Home Cinema 2.7.4

21 июля 2026 года состоялся релиз открытого медиаплеера Media Player Classic — Home Cinema 2.7.4 (MPC‑HC). Исходный код решения написан на С++ и С и опубликован на GitHub под лицензией GNU General Public License v3.0. Версия MPC‑HC 2.0 вышла в январе 2023 года.

24.07 / 17:38

происшествия рубль предприятия TS Solution — первый в России контракт на совместную техническую поддержку UserGate

Компания TS Solution, сертифицированный партнер российского разработчика решений в области кибербезопасности UserGate, объявляет о заключении первого в России контракта с клиентом из финансового сектора на оказание совместной технической поддержки межсетевых экранов UserGate NGFW в рамках проекта вендора «Совместная техническая поддержка».

24.07 / 17:38

реклама бюджет OpenAI официально запустила рекламный сервис в ChatGPT

OpenAI запустила в ChatGPT сервис нативной рекламы, позволяющий рекламодателям показывать релевантные объявления в тот момент, когда пользователи изучают варианты, сравнивают предложения и принимают решения.

24.07 / 17:30

продукты происшествия ученые общество жизнь Новый секрет долгой жизни раскрыли ученые

Ученым удалось обнаружить максимальный срок человеческой жизни, который станет реальным в будущем.

24.07 / 17:30

ученые общество космос планеты звезда Ученые открыли мир, не похожий ни на что в космосе

Астрономы впервые обнаружили вероятный «экзоспутник» в системе CD-35 2722, однако его уникальная орбита и огромная масса поставили ученых в тупик.

24.07 / 17:30

связь общество психология психика Психология и отношения По-настоящему счастливые пары проводят последний час дня иначе

Психология отношений объясняет: даже один час перед сном может укрепить связь, если партнеры используют его осознанно и без отвлекающих факторов.

24.07 / 17:06

promo Как рассчитать и взыскать неустойку по ДДУ: что важно знать дольщику

Нарушение сроков передачи квартиры по договору долевого участия — одна из самых распространенных проблем на рынке новостроек. В подобных ситуациях закон предоставляет дольщику право требовать компенсацию за каждый день просрочки. Чтобы определить возможную сумму выплат, удобно использовать расчет неустойки калькулятор по ДДУ, который помогает быстро получить предварительный результат и понять перспективы дальнейшего взыскания.

24.07 / 16:38

технологии планшеты Компания Honor представила недорогой смартфон с очень ёмким аккумулятором

Honor X7e Plus 5G — это смартфон, оснащенный 6,87-дюймовым ЖК-экраном с разрешением HD+ и частотой обновления 120 Гц. Еще одним преимуществом этой панели является высокая яркость до 1020 нит.Внутри устройства установлен мобильный процессор Snapdragon 4 4-го поколения, поддерживаемый 8 ГБ оперативной памяти, а для хранения данных предусмотрено до 256 ГБ внутренней памяти.Смартфон может похвастаться очень ёмким аккумулятором — 8100 мАч, поддерживающим технологию быстрой зарядки мощностью 45 Вт.

Лента новостей

На главную страницу