Google представила Gemma 4 12B: Мультимодальный ИИ, который наконец поместится в ваш ноутбук
Пока индустрия соревнуется в строительстве все более крупных цифровых «монстров», которые требуют энергии небольшого городка, Google решила пойти другим путем. Компания презентовала Gemma 4 12B — мультимодальную систему, которая пытается доказать, что для умной работы необязательно иметь серверный ангар. Это «золотая середина» между компактными моделями и тяжеловесами, созданная специально для тех, кто хочет запускать серьезный ИИ локально, а не кормить облачные сервисы своими данными.
Главная фишка новой модели Google — радикальное упрощение. Разработчики решили, что традиционные отдельные энкодеры для изображений и аудио — это прошлый день и лишняя нагрузка на систему. Вместо того, чтобы строить сложные конструкции, они интегрировали мультимодальные сигналы непосредственно в основную языковую модель. Например, для обработки изображений теперь используется легкий модуль на основе матричных преобразований, а аудиосигнал вообще проецируется прямо в пространство текстовых токенов.
Такой подход позволил Gemma 4 12B демонстрировать результаты, которые почти не уступают значительно более крупным системам на 26 млрд параметров. При этом требования к железу остались в пределах разумного: для комфортной работы устройства понадобится 16 ГБ видеопамяти или унифицированной памяти. Это делает модель доступной для владельцев современных ноутбуков, а не только для счастливчиков с профессиональными рабочими станциями.
Помимо «всеядности» к форматам данных, модель получила поддержку механизма Multi-Token Prediction (MTP). Если без технического жаргона: это позволяет системе генерировать текст быстрее, предсказывая несколько следующих слов одновременно, что критически важно для агентных сценариев. То есть, когда ИИ не просто пишет стихи, а
Читать на gagadget.com
