



Inception Labs представляет диффузионную языковую модель Mercury 2
Американский стартап Inception представил Mercury 2 — первую языковую модель, использующую диффузионную архитектуру вместо традиционной авторегрессии, что позволяет ей генерировать текст в пять раз быстрее существующих аналогов.
Вместо последовательного предсказания токенов модель создает черновой ответ целиком и итеративно его улучшает — аналогичным способом работают генераторы видео и картинок. В результате Mercury 2 достигает скорости свыше 1000 токенов в секунду, при этом качество сопоставимо с Claude 4.5 Haiku и GPT-5.2 Mini.
Сегодня почти все языковые модели, включая решения от OpenAI, Anthropic и Google DeepMind, работают на основе авторегрессивной архитектуры — они генерируют текст последовательно, токен за токеном. Такой подход ограничивает скорость: чем глубже рассуждение, тем выше задержка и затраты.
В ответ на это индустрия инвестировала миллиарды долларов в чипы-ускорители, оптимизацию инфраструктуры и сжатие моделей, однако сам принцип последовательной генерации оставался неизменным.
Mercury 2 предлагает альтернативу — архитектуру, основанную на диффузии. Вместо пошагового предсказания следующего токена модель формирует черновой вариант ответа целиком, а затем итеративно уточняет его, обрабатывая множество токенов параллельно. Такой подход, ранее применявшийся преимущественно в генерации изображений и видео, позволяет радикально повысить пропускную способность без необходимости полагаться исключительно на аппаратную оптимизацию.
По данным компании, Mercury 2 достигает скорости свыше 1000 токенов в секунду на графических процессорах NVIDIA Blackwell и при этом демонстрирует качество, сопоставимое с Claude 4.5 Haiku и GPT-5.2 Mini. Модель поддерживает контекстное окно объёмом до 128 000 токенов.
В стандартных
Читать на habr.com
