Pruna AI создает свой фреймворк оптимизации открытым исходным кодом
Pruna AI, европейский стартап, работающий над алгоритмами сжатия для моделей искусственного интеллекта, создает свой фреймворк оптимизации открытым исходным кодом.
Pruna AI создает фреймворк, который применяет несколько методов повышения эффективности, таких как кэширование, прунинг, квантизация и дистилляция, к заданной модели AI.
«Мы также стандартизируем сохранение и загрузку сжатых моделей, применяем комбинации этих методов сжатия, а также оцениваем вашу сжатую модель после ее сжатия», — рассказал TechCrunch соучредитель и технический директор Pruna AI Джон Рачван.
В частности, фреймворк Pruna AI может оценить, происходит ли значительная потеря качества после сжатия модели, а также получаемый при этом прирост производительности.
«Если использовать метафору, мы похожи на то, как Hugging Face стандартизировала трансформаторы и диффузоры — как их вызывать, как их сохранять, загружать и т. д. Мы делаем то же самое, но для методов эффективности», — добавил он.
Крупные лаборатории AI уже используют различные методы сжатия. Например, OpenAI полагается на дистилляцию для создания более быстрых версий своих флагманских моделей.
Вероятно, именно так OpenAI разработала GPT-4 Turbo, более быструю версию GPT-4. Аналогично, модель генерации изображений Flux.1-schnell является дистиллированной версией модели Flux.1 от Black Forest Labs.
Дистилляция — это метод, используемый для извлечения знаний из большой модели AI с моделью «учитель-ученик». Разработчики отправляют запросы модели учителя и записывают выходные данные. Иногда ответы сравниваются с набором данных, чтобы увидеть, насколько они точны. Затем эти выходные данные используются для обучения модели ученика, которая обучается приближаться к поведению учителя.
«Крупные компании
Читать на habr.com