Google представила открытый набор localllm для работы ИИ-приложений на локальных процессорах без GPU
Google презентовала набор localllm с открытым исходным кодом, который позволяет разработчикам использовать возможности больших языковых моделей локально на процессоре и в Workstations, полностью управляемой среде разработки Google Cloud.
Языковые модели расположены на Hugging Face и находятся в репозитории The Bloke, они совместимы с методом квантования, который позволяет им работать на процессорах или графических процессорах с низким энергопотреблением.
Квантованные модели — это модели искусственного интеллекта, оптимизированные для работы на локальных устройствах с ограниченными вычислительными ресурсами. Они разработаны таким образом, чтобы быть более эффективными с точки зрения использования памяти и вычислительной мощности, что позволяет им бесперебойно работать на таких устройствах, как смартфоны, ноутбуки и другие периферийные устройства. В Google предложили запускать их на облачных рабочих станциях.
Модели оптимизированы для выполнения вычислений с использованием типов данных более низкой точности, таких как 8-битные целые числа, вместо стандартных 32-битных чисел с плавающей запятой. За счёт представления весов и активаций меньшим количеством битов общий размер модели уменьшается, что облегчает ее размещение на устройствах с ограниченной ёмкостью памяти. Квантованные модели могут выполнять вычисления быстрее из-за меньшей точности и меньшего размера.
Подход компании, основанный на объединении квантовых моделей с облачными рабочими станциями, позволяет разработчикам воспользоваться преимуществами гибкости, масштабируемости и экономической эффективности последних.
localllm — это набор инструментов и библиотек, который обеспечивает лёгкий доступ к квантованным моделям из HuggingFace через утилиту командной строки. Этот
Читать на habr.com