
Генеративный ИИ «сходит с ума» после пяти итераций обучения на материалах, созданных ИИ – исследование Стэндфордского университета
Новое исследование обнаружило ограничения современных генеративных моделей искусственного интеллекта, таких как ChatGPT или Midjourney. Модели, обучаемые на данных, сгенерированных ИИ, будь то тексты или изображения, имеют тенденцию «сходить с ума» после пяти циклов обучения. Изображение выше показывает наглядный результат подобных экспериментов.
MAD (Model Autophagy Disorder) – аббревиатура, используемая исследователями Райс и Стэндфордского университет для описания того, как качество выдачи моделей ИИ деградирует при многократном обучении на данных, сгенерированных ИИ. Как следует из названия, модель «поедает сама себя». Он теряет информацию о «хвостах» (крайних точках) исходного распределения данных и начинает выводить результаты, которые больше соответствуют среднему представлению.
По сути, обучение LLM (больших языковых моделей) на собственных (или аналогичных) результатах создает эффект конвергенции. Это легко увидеть на приведенном выше графике, которым поделился член исследовательской группы Николас Пейпернот. Последовательные итерации обучения на данных, сгенерированных LLM, приводят к тому, что модель постепенно (но довольно резко) теряет доступ к данным, лежащим на периферии графика.
Данные по краям спектра (то, что имеет меньше вариаций и меньше представлено) практически исчезают. Из-за этого данные, которые остаются в модели, теперь менее разнообразны и регрессируют к среднему значению. Согласно результатам, требуется около пяти итераций, пока «хвосты» исходного распределения не исчезнут.
Не подтверждено, что такая аутофагия влияет на все модели ИИ, но исследователи проверили его на автокодировщиках, смешанных моделях Гаусса и больших языковых моделях. Все они широко распространены и работают в разных
Читать на itc.ua