Answer.AI и LightOn представляют ModernBERT: Новая веха в NLP
Answer.AI и LightOn объявили о выпуске ModernBERT, новой модели обработки естественного языка с открытым исходным кодом, которая превосходит BERT от Google по скорости, эффективности и качеству. Согласно сообщению в блоге разработчиков, эта модель, работающая только с энкодером, обрабатывает текст в четыре раза быстрее своего предшественника, используя при этом меньше памяти. Команда обучила ModernBERT на 2 триллионах токенов из веб-документов, программного кода и научных статей.
ModernBERT может работать с текстами длиной до 8192 токенов, что в 16 раз больше типичного предела в 512 токенов для существующих моделей-энкодеров. Это также первая модель энкодера, обученная на программном коде. Модель набрала более 80 баллов на наборе данных вопросов и ответов StackOverflow, установив рекорд для моделей, использующих только энкодер.
Разработчики сравнивают ModernBERT с Honda Civic, настроенной для гоночной трассы: «Когда вы выезжаете на шоссе, вы обычно не меняете свою машину на гоночный автомобиль, а надеетесь, что ваше повседневное надежное средство передвижения сможет комфортно достичь скоростного лимита». Значительное снижение затрат на обработку текста в крупном масштабе.
В то время как крупные языковые модели, такие как GPT-4, стоят несколько центов за запрос и требуют секунд на ответ, ModernBERT работает локально и гораздо быстрее и дешевле, по словам разработчиков. Например, фильтрация 15 триллионов токенов в проекте FineWeb Edu обошлась в $60,000 с использованием модели на базе BERT. Та же задача стоила бы более $1 миллиона даже с Google Gemini Flash, самым дешевым вариантом на основе декодера.
Разработчики утверждают, что ModernBERT подходит для многих реальных приложений, от систем генерации с дополнением поиска (RAG)
Читать на habr.com

