Google запускает «скрытое кэширование», чтобы сделать доступ к своим новейшим моделям AI дешевле
Google внедряет функцию в свой API Gemini, которая, по утверждению компании, сделает ее новейшие модели AI более дешевыми для сторонних разработчиков. Google называет эту функцию «скрытым кэшированием» и утверждает, что она может обеспечить 75% экономии на «повторяющемся контексте», передаваемом моделям через API Gemini.
Она поддерживает модели Gemini 2.5 Pro и 2.5 Flash от Google (напоминаем, что при желании ими вы можете воспользоваться перейдя на BotHub по реферальной ссылке).Это, вероятно, станет приятной новостью для разработчиков, поскольку стоимость использования пограничных моделей продолжает расти.
Кэширование, широко распространенная практика в индустрии AI, повторно использует часто используемые или предварительно вычисленные данные из моделей, чтобы сократить требования к вычислениям и стоимость. Например, кэши могут хранить ответы на вопросы, которые пользователи часто задают модели, устраняя необходимость для модели повторно создавать ответы на тот же запрос.
Google ранее предлагал кэширование подсказок модели, но только явное кэширование подсказок, что означало, что разработчикам приходилось определять свои наиболее часто используемые подсказки. Хотя предполагалось, что экономия средств будет гарантирована, явное кэширование подсказок обычно требовало много ручной работы.
Некоторые разработчики были недовольны тем, как работает реализация явного кэширования Google для Gemini 2.5 Pro, что, по их словам, может привести к удивительно большим счетам API. Жалобы достигли апогея на прошлой неделе, что побудило команду Gemini извиниться и пообещать внести изменения.
В отличие от явного кэширования, неявное кэширование является автоматическим. Включенное по умолчанию для моделей Gemini 2.5, оно передает экономию
Читать на habr.com