Новую LLM talkie обучили на текстах до 1931 года
Трое ИИ-исследователей, включая Алека Редфорда (соавтора GPT 1.0), опубликовали «винтажную языковую модель» talkie с 13 миллиардами параметров. Она обучена исключительно на текстах, опубликованных до 1931 года, так что ограничена этим и в знаниях о мире, и в стилистике текста. Пообщаться с ней можно на официальном сайте.
Создатели модели отмечают, что она полезна в различных исследовательских целях:
Можно с её помощью изучать, насколько LLM способны прогнозировать. Поскольку нам уже известны события после 1931-го, возможно оценивать, получится ли у модели правильно предположить что-либо о них.
Можно изучать, насколько способны модели в областях, отсутствовавших в обучающем датасете. Эта LLM изначально не знает ничего про код. Какими окажутся результаты, если в промптах объяснять ей задачу, связанную с программированием? Оказалось, что в некоторых случаях у неё получается давать правильные ответы на Python, когда речь о простых однострочниках.
Также в её случае полезно отсутствие контаминации. Модели, обученные на всём содержании интернета, могут знать многое о тех бенчмарках, с помощью которых их оценивают, и «подстраиваться» под правильные результаты. В результате у людей возникает искажённое и завышенное представление о возможностях моделей. А у talkie нет информации о бенчмарках, что позволяет проводить замеры точнее.
Веса модели доступны на HuggingFace. Ранее уже появлялись другие «винтажные модели», например, Machina Mirabilis и Mr. Chatterbox. Однако они, как правило, были с меньшим числом параметров и позволяли сделать меньше выводов. Авторы talkie отмечают, что полезно сравнение моделей разных размеров, и намерены в будущем обучать ретро-модели с ещё большим количеством параметров.
Читать на habr.com