



ИИ должен учиться непрерывно, чтобы стать AGI. Но с этим проблема
Чтобы приблизиться к настоящему универсальному ИИ (AGI), модель должна уметь дообучаться без остановки — впитывать новые факты и навыки прямо по ходу работы. Новое исследование лаборатории Zyphra показало, что большие языковые модели справляются с этим плохо: после долгого обучения они постепенно теряют саму способность усваивать новое. Важно не перепутать: речь не про забывание и не про "поглупение". Старое модель помнит прекрасно — она именно разучивается учиться. Похоже на опытного сотрудника, который ничего из накопленного не растерял, но за годы в одной колее все тяжелее берется за незнакомые задачи. У этого явления есть имя — потеря пластичности.
Чтобы поймать эффект, модели разных размеров — от 5 до 314 млн параметров — долго прогоняли через поток из восьми языков (английский, русский, китайский, французский, японский и так далее), а время от времени проверяли, насколько быстро они выучивают совсем новый язык, которого в потоке не было, — вьетнамский. Картина получилась наглядной: чем дольше шло обучение, тем хуже модели давался этот новичок.
Главный вопрос был про масштаб: спасает ли он? И да, и нет. Чем крупнее модель, тем позже наступает эта "закостенелость" — но "никогда" не наступает ни у одной. Размер лишь оттягивает момент, причем со все меньшей отдачей: момент наступления подчиняется простому степенному закону и растет медленнее, чем сама модель. Грубо говоря, просто раздуть модель, чтобы избавиться от проблемы, не выйдет — это неэффективный путь. По прогнозу из той же формулы (именно прогноз, прямых замеров на таких размерах нет) модель на миллиард параметров начала бы терять пластичность примерно к 1,8 трлн обработанных токенов. И самый неуютный результат: эффект проявился даже при обычном длительном
Читать на habr.com