Исследователи из Unsloth сжали DeepSeek R1 на 80% от оригинального размера
Исследователи из компании Unsloth, которая специализируется на обучении и файнтюнинге языковых моделей, сжали нейросеть DeepSeek R1 на 80% от оригинального размера. В итоге языковая модель занимает 131 ГБ вместо 720 ГБ, а запускать её можно на более слабом железе. При этом производительность модели всё ещё остаётся на достаточно высоком уровне.
В своём проекте исследователи использовали китайскую большую языковую модель DeepSeek R1 с 671 млрд параметров. Её исходный размер составляет 720 ГБ, но её получилось сжать до 131 ГБ без значительной потери качества ответов.
Для этого инженеры использовали метод динамической квантизации (Dynamic Quantization). Веса высокопроизводительных слоёв нейросети оставили практически нетронутыми, а менее значимые веса, например экспертные блоки, сжали до 1,58 бита по методу от исследователей Microsoft. В итоге получилось, что примерно 12% весов работают так же, как и в исходной версии DeepSeek R1, а оставшиеся 88% весов значительно сжались.
Сжатую модель исследователи протестировали в сценарии разработки клона игры Flappy Bird. Нейросеть попросили создать проект по следующему техническому заданию:
Игра должна быть на основе библиотеки Pygame.
Фон может быть любого светлого цвета.
Нажатие на клавишу Пробел должно поднимать птицу выше.
Форма птицы может быть в виде любой фигуры, а цвет — тёмным.
Земля на экране должна быть тёмно-коричневого или жёлтого цвета.
В правом верхнем углу экрана следует добавить счёт игрока, который увеличивается на одно значение, если пользователь успешно преодолевает препятствие.
В случае проигрыша на экране должен появляться рекордный счёт. Нажатие на клавишу Q или Esc будет закрывать игру, а Пробел — перезапускать.
Для генерации использовали сиды 3407, 3408, 3409 и значение
Читать на habr.com


