Google запускает SALT: Новый способ ускоренного обучения больших моделей AI с помощью малых
Исследователи из Google разработали метод, позволяющий создавать языковые модели AI, которые одновременно быстрее и лучше, используя необычный подход: предоставляя меньшим моделям обучение для больших.
Совместная команда из Google Research и DeepMind разработала метод обучения под названием SALT (Small model aided large model training), который сокращает время обучения до 28 процентов и одновременно улучшает производительность. Так в чем ключевая инновация? Использование меньших языковых моделей в качестве помощников-преподавателей.
Процесс происходит в два этапа. Сначала большая модель обучается у меньшей модели через процесс, называемый дистилляцией знаний, при котором одна AI-модель обучает другую, предоставляя как свои ответы, так и уверенность в этих ответах. Обычно дистилляция знаний предполагает, что большие модели обучают меньшие, но команда Google обнаружила, что этот процесс может работать и наоборот — по крайней мере, на определённых этапах обучения. На втором этапе большая модель переходит к обычным методам обучения.
Меньшая модель особенно полезна в тех областях, где она уже делает надёжные прогнозы. Для этих более простых задач большая модель обучается быстрее и надёжнее, прежде чем перейти к традиционному обучению для более сложных задач.
SALT может сделать обучение моделей AI более доступным Команда протестировала SALT, используя модель с 1,5 миллиардами параметров для обучения модели с 2,8 миллиардами параметров. Результаты были впечатляющими: большая модель достигла своих целевых показателей производительности всего за 70 процентов обычного времени обучения, а затем продемонстрировала лучшие результаты на различных тестах.
Улучшения особенно проявились после дообучения для конкретных задач. Для
Читать на habr.com