



Исследователи разоблачили, что ИИ-модель Meta Llama 3.1 нарушает авторские права - она может вспомнить 42 процента первой книги о Гарри Поттере
Недавно исследование Stanford, Cornell и West Virginia University показало, что модель Meta Llama 3.1 (70B), выпущенная в июле 2024 года, сознательно запомнила 42% первой книги о Гарри Поттере так, что может воспроизвести отрывки по 50 токенов с вероятностью более 50%. То есть, мродель не просто помнит сюжет - она может воспроизвести целые куски текста, если ей дать первое предложение. Для сравнения, старая модель помнила всего 4.4 %.
Что произошло
Группа исследователей проверила, насколько сильно новая Llama "залипла" на книгах. Оказалось, если текст очень популярен (типа "Гарри Поттера" или "Хоббита"), то ИИ может повторить большие куски. А вот менее известные книги (например, "Sandman Slim") - не вызывали у него особого энтузиазма: там модель помнила менее 1 %.
Учёные использовали специальный метод, который показывает, насколько модель уверена в каждом следующем слове - и эта уверенность была так высока, что стало понятно: она это точно видела раньше.
Как это измеряли
Использовали метод анализа вероятностей следующих токенов: если, подложив первые 50 токенов из отрывка, модель воспроизводит следующие - это считалось признаком запоминания
Почему это важно
Почему так произошло?
Потому что Meta обучала эту модель на 15 триллионах слов - это очень-очень много. Возможно, в тренировку попали не просто книги, а форумы, фан-сайты и рецензии с цитатами - чем чаще текст появлялся в датасете, тем чаще его влияние на модель.
И что теперь?
Если юристы докажут, что ИИ воспроизводит тексты почти дословно - это может означать большие проблемы для Meta. Особенно потому, что их модель открыта, и все могут это проверить. Закрытые языковые модели (OpenAI, Anthropic и Google) тоже могут иметь аналогичные проблемы, но доказать это гораздо
Читать на gagadget.com