Об этом же в других СМИ

habr.com / 3 месяца назад

Palantir стал постоянным поставщиком ИИ для Пентагона. Внутри все еще работает запрещенный Claude

habr.com / 3 месяца назад

Google превратил AI Studio в IDE для вайб-кодинга — с бэкендом, базами и мультиплеером

habr.com / 3 месяца назад

Вышла альфа Midjourney V8 — в пять раз быстрее и нативные 2K

habr.com / 3 месяца назад

Дизайнер KDE назвал Claude Code «поваром-любителем на профессиональной кухне»

habr.com / 3 месяца назад

Тысячи токенов в секунду: Nvidia добавила чипы Groq в стойки Vera Rubin

Больше по теме

07.03.2026 - 10:48 / habr.com

Gemini 3 Flash поставили управлять кафе. Она прокричала «погнали!» 574 раза и обанкротилась

Авторы FoodTruck Bench — агентного бенчмарка, в котором ИИ-модели 30 дней управляют фудтраком в Остине, — обнаружили, что Gemini 3 Flash Preview не способна пройти симуляцию. В 5 из 7 запусков модель уходила в бесконечный цикл рассуждений и не совершала ни одного действия. GPT-5, Claude, DeepSeek и Gemini Pro с той же задачей справляются без единого сбоя.

Схема повторяется: нулевой день проходит нормально — 13 вызовов инструментов, 44 секунды. Но на первый день, когда нужно принять решение о закупках и локации, ответ модели раздувается до 174 816 символов и обрезается по лимиту токенов. Внутри — 574 повтора фразы «Let's go» без единого вызова инструмента. Модель бесконечно проговаривает намерение действовать, но так и не действует.

Когда симуляция принудительно перезапускала запрос, Gemini 3 Flash отвечала корректно и проходила несколько ходов — но затем входила в новый цикл. На этот раз не паралич решений, а бесконечное накопление: модель добавляла ингредиенты в заказ, объявляла его готовым и тут же добавляла те же позиции заново. 9 188 строк, 182 000 символов — и ни одного оформленного заказа. В реальном бизнесе это был бы верный путь к банкротству: аренда тикает, расходы растут, а продаж — ноль.

Парадокс в том, что без режима thinking модель работает приемлемо. В одном из прогонов в стандартном режиме Gemini 3 Flash прошла 15 дней без единого сбоя: $8 703 выручки, 1 442 проданных порции, +27,5% к стартовому капиталу. Проблема возникает именно тогда, когда модели дают "подумать" — расширенные рассуждения превращаются в ловушку, из которой агент не может выбраться.

Авторы бенчмарка назвали это "параличом анализа" — явлением, при котором способность модели рассуждать работает против нее в агентных сценариях. Ни одна другая

бизнес экономика google крипто runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«В США не любят ИИ» — Сэм Альтман считает это проблемой habr.com / 3 месяца назад

Meta* отложила ИИ-модель Avocado: она проиграла Google и OpenAI на внутренних тестах habr.com / 3 месяца назад

Подписка Claude Max не стоит Anthropic $5000 — просто цены на API завышены до 10 раз habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 23:46

технологии смартфон самит гаджет Почему смартфон заряжается медленно: дело может быть не в кабеле

При покупке кабеля для смартфона специалисты советуют учитывать не только его длину, но и качество изготовления.

15.07 / 22:13

экономика общество семья самит психология Простая вещь, которую мужчины не могут понять о зрелых женщинах

Писательница Ким Петерсен объяснила, почему кризис среднего возраста у женщин — это не капризы или менопауза, а глубокая перестройка всей жизни.

15.07 / 22:10

Samsung технологии здоровье история общество В сеть утекли официальные изображения всех новинок Samsung перед Galaxy Unpacked

Если информация подтвердится, уже 22 июля на мероприятии в Лондоне компания представит сразу несколько флагманских устройств нового поколения: Galaxy Z Fold8, Galaxy Z Fold8 Ultra, Galaxy Z Flip8, Galaxy Watch9 и Galaxy Watch Ultra 2. На данный момент речь идет об утечке, однако опубликованные изображения выглядят как официальные маркетинговые рендеры и совпадают с более ранними инсайдерскими данными.

15.07 / 20:21

Apple самит мода и стиль Parke MacRumors LEGO выпустит набор с легендарным iMac G3: проект прошел важный этап отбора

Платформа LEGO Ideas позволяет поклонникам бренда предлагать собственные концепции будущих наборов. Если проект набирает не менее 10 000 голосов, его рассматривает специальная комиссия LEGO, которая решает, стоит ли запускать модель в серийное производство.

15.07 / 19:47

продукты люди здоровье общество Здоровье и красота Две лучшие крупы для похудения назвали ученые

Эксперты рассказали, в каких случаях лучше выбрать гречку, а в каких рис.

15.07 / 19:47

технологии общество рубль электромобиль пресс-служба UMO объявила о старте предзаказов электрического кроссовера UMO 5 для частных покупателей в России

Компания UMO объявила о старте приёма предзаказов на электрический кроссовер UMO 5 для частных покупателей и раскрыла цены и комплектации модели. Автомобиль будет доступен в двух версиях. Комплектацию «Про» оценили в 2,59 млн рублей, а версию «Макс» — в 2,79 млн рублей. Цены действуют с учётом субсидии при покупке электромобиля, рассказали Хабру в пресс-службе компании.

15.07 / 19:23

технологии AOC представила необычный портативный монитор с цветным E Ink-дисплеем

Вместо привычной LCD- или OLED-матрицы новинка получила цветной экран на основе электронной бумаги E Ink. Продажи уже стартовали в Китае, где устройство оценили в 4599 юаней (около 679 долларов).

15.07 / 19:18

продукты здоровье общество женщина Здоровье и красота Три продукта, которые необходимы всем женщинам после 40 лет

Какие продукты позитивно влияют на женский организм, поддерживают гормональный баланс и продлевают молодость.

15.07 / 19:18

люди здоровье общество самит сон Шесть недель недосыпания могут изменить тело - ученые

Даже незначительное недосыпание может повлиять на тело быстрее, чем кажется.

15.07 / 19:12

продукты OpenAI OpenAI представила Codex Micro — компактный девайс для удобного программирования и управления AI-агентами

OpenAI представила Codex Micro — компактное настольное устройство, созданное совместно с производителем механических клавиатур Work Louder. Это первый аппаратный продукт компании, ориентированный на программистов, которые используют в своей работе AI-платформу Codex.

Лента новостей

На главную страницу