Gemini 3 Flash поставили управлять кафе. Она прокричала «погнали!» 574 раза и обанкротилась
Авторы FoodTruck Bench — агентного бенчмарка, в котором ИИ-модели 30 дней управляют фудтраком в Остине, — обнаружили, что Gemini 3 Flash Preview не способна пройти симуляцию. В 5 из 7 запусков модель уходила в бесконечный цикл рассуждений и не совершала ни одного действия. GPT-5, Claude, DeepSeek и Gemini Pro с той же задачей справляются без единого сбоя.
Схема повторяется: нулевой день проходит нормально — 13 вызовов инструментов, 44 секунды. Но на первый день, когда нужно принять решение о закупках и локации, ответ модели раздувается до 174 816 символов и обрезается по лимиту токенов. Внутри — 574 повтора фразы «Let's go» без единого вызова инструмента. Модель бесконечно проговаривает намерение действовать, но так и не действует.
Когда симуляция принудительно перезапускала запрос, Gemini 3 Flash отвечала корректно и проходила несколько ходов — но затем входила в новый цикл. На этот раз не паралич решений, а бесконечное накопление: модель добавляла ингредиенты в заказ, объявляла его готовым и тут же добавляла те же позиции заново. 9 188 строк, 182 000 символов — и ни одного оформленного заказа. В реальном бизнесе это был бы верный путь к банкротству: аренда тикает, расходы растут, а продаж — ноль.
Парадокс в том, что без режима thinking модель работает приемлемо. В одном из прогонов в стандартном режиме Gemini 3 Flash прошла 15 дней без единого сбоя: $8 703 выручки, 1 442 проданных порции, +27,5% к стартовому капиталу. Проблема возникает именно тогда, когда модели дают "подумать" — расширенные рассуждения превращаются в ловушку, из которой агент не может выбраться.
Авторы бенчмарка назвали это "параличом анализа" — явлением, при котором способность модели рассуждать работает против нее в агентных сценариях. Ни одна другая
Читать на habr.com