

Представлена языковая модель с линейной сложностью вычислений и контекстом до 12 млн токенов
Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую модель с линейной сложностью вычислений относительно длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.
Архитектура SubQ обеспечивает линейный рост затрат, что снижает нагрузку на GPU почти в 1000 раз на длинных контекстах по сравнению с классическими трансформерами. Источник: subq.ai
Главная архитектурная боль современных языковых моделей — квадратичная сложность механизма внимания. С ростом длины контекста вычислительные затраты и потребление памяти увеличиваются непропорционально быстро. Индустрия годами обходила ограничение «костылями»: поиск с дополненной генерацией (RAG), разбиение текста на фрагменты, векторные хранилища. Инженеры тратят много времени на обход ограничений современных LLM: ограниченный контекст, галлюцинации и дороговизна обработки длинных запросов.
Стартап Subquadratic утверждает, что сломал этот барьер. Их архитектура обеспечивает линейный рост вычислений относительно длины контекста. Звучит как мечта, но техническое сообщество пока держит паузу.
Линейное масштабирование: Сложность вместо . Обработка миллионов токенов без взрывного роста затрат.
Контекст до 12 млн токенов: Флагманские модели обычно деградируют задолго до заявленных 1–2 млн. SubQ обещает стабильную точность на всём объёме.
Скорость и эффективность: Механизм SubQ Sparse Attention работает в 52 раза быстрее FlashAttention и требует на 63% меньше вычислительных ресурсов.
Точность:
Читать на habr.com
