Вышел Mercury Coder: первая модель на принципиально новой архитектуре dLLM, в 10 раз быстрее LLM
Текущие большие языковые модели (LLM) являются авторегрессивными, то есть генерируют текст слева направо, по одному токену за раз. Этот процесс по своей природе последовательный — новый токен не может быть сгенерирован, пока не сформирован весь предшествующий текст (потому что он поступает в виде контекста на вход нейросети для генерации следующего токена), а генерация каждого токена требует вычислений в модели с миллиардами параметров.
Компании, работающие над передовыми LLM, делают ставку на дополнительную генерации в процессе подготовки ответа для улучшения логических рассуждений (reasoning) и исправления ошибок, но генерация длинных цепочек рассуждений приводит к резкому росту затрат на вычисления и огромной задержке (минуты).
Чтобы сделать высококачественные AI-решения по-настоящему доступными, необходима смена парадигмы.
Диффузионные модели обеспечивают такую смену. Они работают по принципу "от грубого к детальному", где результат постепенно улучшается из чистого шума за несколько шагов "разшумления", как показано в видео выше.
Поскольку диффузионные модели не ограничены учётом только предыдущего вывода, они лучше справляются с логическими рассуждениями и структурированием ответов. А благодаря способности к итеративному улучшению результатов, они могут исправлять ошибки и галлюцинации. По этим причинам диффузия лежит в основе ведущих AI-решений для генерации видео, изображений и аудио, таких как Sora, Midjourney и Riffusion. Однако до сих пор применение диффузионных моделей к дискретным данным, таким как текст и код, оставалось неуспешным. До сегодняшнего дня.
Сегодня был представлен Mercury Coder — первая публично доступная диффузионная языковая модель (dLLM), которая значительно расширяет возможности искусственного
Читать на habr.com


