Яндекс представил YandexGPT 3 Lite
Сегодня мы открыли доступ к YandexGPT Lite третьего поколения. Облегченная версия нашей большой языковой модели доступна через API в Yandex Cloud. Новая модель полезна в сценариях, где важна скорость ответа: например, её можно использовать в чат-ботах, для проверки орфографии или анализа данных. Это оптимальная по цене и качеству генеративная модель Яндекса для решения рутинных задач.
Чуть более подробно о результатах сравнения с другими моделями, а также об изменениях в процессе обучения и архитектуре — в этой новости.
Новая модель по многим параметрам превосходит YandexGPT 2 Lite — облегчённую модель предыдущего поколения. По итогам теста YaMMLU_ru (русскоязычной версии международного эталонного теста MMLU), новая модель даёт на 6 п.п. больше верных ответов, чем модель предыдущего поколения.
Модели сравнивали также по методике Side by Side: нейросети отвечали на одни и те же вопросы, а эксперты выбирали лучший ответ. В среднем YandexGPT 3 Lite отвечала лучше, чем YandexGPT 2 Lite, в 68% случаев.
Эксперты оценивали также, насколько хорошо новая модель справляется с задачами классификации, генерации контента, ответами на вопросы и другими основными типами бизнес-задач. Вот как выглядят результаты тестирования:
Кроме того, новая модель допускает меньше орфографических и фактических ошибок, чем модель второго поколения YandexGPT 2.
Как и все модели нашего третьего поколения, YandexGPT 3 Lite обучали в два этапа: pretraining (предварительное обучение) и alignment (выравнивание модели). Второй этап, в свою очередь, состоит из supervised learning (обучение с учителем) и reinforcement learning (обучение с подкреплением). При этом улучшения были на всех этапах обучения.
Для этапа pretraining мы собрали более чистый датасет. Это
Читать на habr.com
