Pruna AI выпускает фреймворк с открытым исходным кодом для оптимизации ИИ
Pruna AI, европейский стартап, работающий над алгоритмами сжатия моделей искусственного интеллекта, изготовление его фреймворк оптимизации открыл исходный код в четверг.
Pruna AI создает фреймворк, который применяет несколько методов повышения эффективности, таких как кэширование, обрезка, квантизация и дистилляция, к заданной модели ИИ.
«Мы также стандартизируем сохранение и загрузку сжатых моделей, применяя комбинации этих методов сжатия и оценивая сжатую модель после ее сжатия», — рассказал TechCrunch соучредитель и технический директор Pruna AI Джон Рачван.
В частности, фреймворк Pruna AI может оценить, происходит ли значительная потеря качества после сжатия модели, а также какой прирост производительности при этом получается.
«Если использовать метафору, мы похожи на то, как Hugging Face стандартизировала трансформаторы и диффузоры — как их называть, как их хранить, как их загружать и т. д. Мы делаем то же самое, но в отношении методов производительности», — добавил он.
Крупные лаборатории ИИ уже используют различные методы сжатия. Например, OpenAI использует дистилляцию для создания более быстрых версий своих флагманских моделей.
Вероятно, именно так OpenAI разработала GPT-4 Turbo, более быструю версию GPT-4. Аналогично, модель генерации изображений Flux.1-schnell является дистиллированной версией модели Flux.1 от Black Forest Labs.
Дистилляция — это метод, используемый для извлечения знаний из большой модели ИИ с использованием модели учитель-ученик. Разработчики отправляют запросы в модель учителя и записывают результаты. Иногда ответы сравниваются с набором данных, чтобы увидеть, насколько они точны. Затем эти результаты используются для обучения модели ученика, которая учится аппроксимировать поведение учителя.
Читать на hitechexpert.top
