Стартап Taalas впаял нейросеть в кремний и получил рекордные 17 000 токенов в секунду
Канадский стартап Taalas вышел из стелс-режима и показал первый продукт — специализированный чип HC1 с "захардкоженной" Llama 3.1 8B. Модель не загружается в память, а буквально впаяна в кремний: веса зашиты в транзисторы на этапе производства. Результат — 17 000 токенов в секунду на одного пользователя, что почти в 10 раз быстрее текущих решений на GPU, при 20-кратном снижении стоимости производства и 10-кратной экономии энергии.
Основал Taalas Любиша Байич — основатель другого чипмейкера, Tenstorrent, и бывший директор проектирования интегральных схем в AMD. Вместе с ним компанию запустили его жена Лейла Байич (экс-AMD, экс-ATI) и Драго Игнятович (экс-AMD, экс-Tenstorrent). После того как в Tenstorrent пришел легендарный чип-дизайнер Джим Келлер и занял кресло CEO, Байич ушел — и через полгода начал строить Taalas с радикально другой идеей.
Суть подхода — тотальная специализация. Вместо того чтобы запускать модели на универсальных GPU, Taalas для каждой модели производит отдельный чип. Из более чем 100 слоев микросхемы кастомизируются только два верхних металлических — в них встраивается так называемая mask ROM recall fabric, где хранятся веса. Это позволяет TSMC выпускать готовый чип за два месяца вместо шести, типичных для обычного ИИ-процессора. Архитектура объединяет память и вычисления на одном кристалле, что снимает потребность в HBM, продвинутой упаковке, 3D-стекировании и жидкостном охлаждении.
Пока "захардкоженная" Llama — далеко не фронтирная модель, а агрессивная квантизация до 3 и 6 бит заметно снижает качество по сравнению с GPU-бенчмарками. Taalas это признает и позиционирует продукт как бета-сервис для разработчиков, которые хотят поэкспериментировать с инференсом на субмиллисекундных задержках. Чип
Читать на habr.com
