Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью
Google представила два новых режима работы в Gemini API — Flex и Priority. Они позволяют разработчикам выбирать, что важнее для конкретного запроса: минимальная стоимость или максимальная надёжность. Главное изменение в том, что теперь и фоновые, и критичные пользовательские задачи можно обслуживать через один и тот же синхронный интерфейс, без отдельной асинхронной логики через Batch API.
Flex Inference — это новый экономичный режим для задач, где не нужна мгновенная реакция. Google заявляет, что он даёт до 50% экономии по сравнению со Standard API, но за счёт этого запросы получают меньший приоритет, могут выполняться медленнее и обслуживаться менее стабильно. Такой режим предлагают использовать для фоновых процессов: суммаризации больших объёмов текста, CRM-обновлений, исследовательских прогонов и агентных сценариев, где модель «думает» в фоне.
Priority Inference, наоборот, рассчитан на критичные сценарии — например, пользовательские чатботы, модерацию в реальном времени и другие latency-sensitive задачи. В этом режиме запросы получают более высокий приоритет. Если нагрузка превышает лимиты Priority, запросы не падают с ошибкой, а автоматически уходят в Standard tier. Google подаёт это как механизм для сохранения работоспособности приложения даже в пиковые моменты.
Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее.
Технически всё выглядит довольно просто: разработчику достаточно указать параметр service_tier в запросе. При этом в ответе API можно увидеть, какой именно tier реально обслужил вызов, что полезно и для мониторинга, и для контроля биллинга.
На практике это выглядит как шаг в сторону более зрелой эксплуатации Gemini API. Пока LLM-сценарии были в основном про чат и
Читать на habr.com
