Об этом же в других СМИ

habr.com / 3 недели назад

Sakana Fugu обогнала Opus 4.8 и GPT-5.5, не обучив ни одной большой модели

gagadget.com / 3 недели назад

TCL превратила проектор в ИИ-ассистента: PlayCube получил Gemini и научился создавать контент по запросу

gagadget.com / 3 недели назад

Google обновила Gemini Live: голосовой ассистент получил доступ к памяти и данным YouTube, Workspace и других приложений

habr.com / 4 недели назад

Галлюцинации недели: Fable 5, World of Claudecraft и циклы, которые пишут код вместо вас

habr.com / 1 месяц назад

Связка дешёвых моделей обошла GPT-5.5 и Opus 4.8

Больше по теме

05.06.2026 - 04:09 / habr.com

Галлюцинации недели: Opus 4.8, Step 3.7 Flash и 683 преступления в государстве под управлением Gemini

Anthropic утверждает, что внутри моделей нашли страх, тревогу и горе. Поздравляю, мы вырастили ИИ до уровня тревожного миллениала.

💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь.

Claude Opus 4.8 вышел по той же цене, что и 4.7, в один день с анонсом гигантского раунда Anthropic. Контекст 1M, $5/$25 за миллион токенов. Компания описывает апдейт непривычно: "острее суждение", "честнее о собственном прогрессе" и "дольше работает сама". Алекс Альберт из Anthropic уточнил, что 4.8 чинит претензии к 4.7. Главная из них — лень: модель раньше любила отрапортовать о выполненной задаче, не выполнив её. scaling01, аналитик из AI-твиттера и автор бенчмарка LisanBench, назвал это "лекарством от лени".

По бенчмаркам Opus 4.8 действительно выглядит лидером. SWE-Bench Pro (агентное кодирование на реальных задачах из репозиториев) — 69.2%, на десять пунктов выше GPT-5.5. На GDPval-AA, оценке экономически полезной работы, 1890 Elo, +137 к 4.7. Artificial Analysis поставила модель #1 по своему индексу интеллекта. Дальше начинаются нюансы. Та же Artificial Analysis замечает: при лучшем результате 4.8 тратит на 35% меньше выходных токенов, чем 4.7, но всё ещё на 30% больше "ходов", чем GPT-5.5.

Andon Labs протестировала модель и нашла, что на Vending Bench и Blueprint-Bench 2 она хуже предшественницы: стала "более выровненной", осторожнее, будто "боится попасться". scaling01 окрестил релиз "минорным апгрейдом" и отдельно отметил, что 4.8 — первая за долгое время модель, которая не улучшила устойчивость к prompt injection. А настроение скептиков в AI-твиттере подытоживают так: Anthropic всё чаще догоняет OpenAI, а не задаёт темп.

DeepSWE, новый бенчмарк от Datacurve, заходит с другой стороны: задачи тут

криминал общество самит крипто токен gemini Shell

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей habr.com / 1 месяц назад

Лучшее за неделю (1.06 — 7.06) habr.com / 1 месяц назад

В Гонконге планируют открыть первый круглосуточный магазин под управлением человекоподобного робота habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 10:05

продукты здоровье самит Здоровье и красота напитки Как кофе помогает худеть и насколько это безопасно

Исследования подтверждают, что кофе ускоряет метаболизм и на самом деле помогает организму сжигать подкожный жир.

17.07 / 10:00

связь технологии происшествия Telegram общество Дуров купил t.you в дополнение к t.me

15 июля 2026 года Павел Дуров сообщил, что купил для мессенджера Telegram домен для коротких ссылок t.you в дополнение к t.me. У регистратора этого домена отмечено, что он уже занят, но в сервисе whois пока нет данных об этом событии.

17.07 / 10:00

технологии Релиз композитного сервера Weston 16.0

В середине июля 2026 года состоялся релиз композитного сервера Weston 16.0. В рамках этого открытого проекта развиваются технологии, содействующие появлению полноценной поддержки протокола Wayland в Enlightenment, GNOME, KDE и других пользовательских окружениях. Выпуск Weston 14.0 случился в сентябре 2024 года. Версия Weston 15.0 вышла в феврале 2026 года.

17.07 / 09:57

происшествия ученые здоровье общество семья Что больше всего влияет на продолжительность жизни, выяснили ученые

Что сокращает жизнь больше, чем неправильное питание или отсутствие физических нагрузок, рассказали специалисты.

17.07 / 09:57

общество самит звезда инопланетяне интересное Планету, где могут прятаться инопланетяне, обнаружили ученые

Исследователи обнаружили загадочную «суперземлю» с идеальными условиями для развития жизни.

17.07 / 09:57

связь технологии люди смартфон общество Какая привычка со смартфоном портит память даже у молодых людей

Ученые объяснили, как смартфон и информация, которая в нем хранится, может влиять на нашу память.

17.07 / 09:53

наука история космос экзопланеты звезда Жизнь? Астрономы впервые нашли атмосферу на потенциально обитаемой планете

Астрономы обнаружили атмосферу на тщательно изученной, потенциально обитаемой «суперземле», получившей название LHS 1140 b. Это первый в истории случай обнаружения атмосферы на каменистой планете в обитаемой зоне другой звезды, заявили ученые.

17.07 / 09:50

продукты экономика SpaceX общество google BingX отчиталась о росте направления TradFi и запуске EventX во II квартале 2026 года

Криптобиржа BingX опубликовала итоги работы за II квартал 2026 года. Компания сообщила о росте направления TradFi, запуске новых продуктов и расширении мультиактивной торговой экосистемы. Об этом Incrypted сообщили в компании. По словам представителей платформы, в течение квартала компания расширила доступ пользователей к мировым финансовым рынкам благодаря стремительному развитию направления TradFi, запуску новых продуктов и дальнейшим инвестициям в совершенствование торговой инфраструктуры. Рост популярности мультиактивной торговли Во II квартале одним из ключевых направлений развития BingX стала торговля активами традиционного финансового рынка. На м

17.07 / 09:50

google Ethereum usdt Объем токенизированных активов на BNB Chain достиг рекорда

По данным Token Terminal, совокупная стоимость токенизированных активов в сети BNB Chain впервые превысила $19 млрд по состоянию на июль 2026 года, установив исторический максимум. Крупнейшим сегментом остаются стейблкоины, где лидирует USDT с предложением $9,2 млрд, тогда как USD1 от World Liberty Financial уже занимает второе место с $1,7 млрд. Кроме того, сеть продолжает укреплять позиции в сфере токенизированных фондов, акций и товаров, сокращая отставание от Ethereum в нескольких категориях. В частности, токенизированные акции на BNB Chain уже превысили $620 млн, а сектор токенизированных фондов вырос до $3,6 млрд. BNB Chain нарастила объем токенизированных активов до $2 млр

17.07 / 09:36

Tesla история общество предприятия От Model S до Optimus: Tesla меняет вектор своего производства

На месте производственной линии Tesla в Фримонте, где 14 лет собирали Model S и Model X, компания начинает реализацию проекта по созданию робота-гуманоида.

Лента новостей

На главную страницу