ИИ-сообщество представило крошечный трансформер для складывания 10-значных чисел
Участники открытого челленджа AdderBoard довели минимальный трансформер, способный складывать два 10-значных числа, до 130 параметров — в 47 раз меньше исходной модели на 6 080 параметров. Модель достигает 100%-й точности на тестовой выборке из 10 000 примеров.
Все началось с эксперимента Димитриса Папаилиопулоса, профессора Висконсинского университета и исследователя Microsoft Research. В феврале он дал Claude Code и Codex одинаковое задание: обучить самый маленький трансформер, который складывает 10-значные числа с точностью не ниже 99%. Claude Code вернул модель на 6 080 параметров, Codex — на 1 644. Папаилиопулос описал эксперимент в посте "Сложение под давлением" и открыл лидерборд для всех желающих.
Сообщество быстро включилось в гонку. В лидерборде два трека: обученные модели, где веса находит алгоритм оптимизации, и модели с аналитически заданными весами — конструктивные доказательства того, что архитектура в принципе способна представлять сложение. Рекорд среди обученных моделей — 311 параметров при точности 99,999%, среди аналитических — те самые 130. Ключевые приемы: факторизация ранга 1 и 3, разделение эмбеддингов, синусоидальное позиционное кодирование и обнаружение переноса через ReLU.
Задача выглядит тривиально, но для авторегрессивного трансформера сложение требует трех вещей одновременно: выравнивания цифр через механизм внимания, поразрядной арифметики в MLP-слое и пробрасывания переноса через последовательную генерацию. Участники обнаружили резкий фазовый переход точности в районе 800 параметров и выяснили, что однослойные архитектуры при равном бюджете обходят двухслойные.
AdderBoard — по сути, исследование нижней границы возможностей трансформеров на задаче, которую человек решает в столбик. Лидерборд
Читать на habr.com
