«Закон уплотнения» LLM: плотность способностей удваивается каждые 3,5 месяца
Предлагается «закон уплотнения» для больших языковых моделей: максимальная плотность способностей удваивается примерно каждые 3,5 месяца. То есть всё больше качества удаётся выжать из каждого параметра модели.
Вводится метрика плотности способностей: считается, сколько параметров потребовалось бы референсной модели, чтобы показать такое же качество, и это число сравнивается с реальным количеством параметров. Так видно, какие модели обучены «экономно», а какие — расточительно.
Анализ по нескольким бенчмаркам (MMLU, BBH, MATH, HumanEval, MBPP и MMLU-CF без утечек в тренировочные данные) показывает устойчивый экспоненциальный рост плотности, а не артефакт контаминации тестов.
При фиксированном целевом качестве необходимое число параметров падает экспоненциально, а вместе с оптимизацией инференса это ведёт к резкому удешевлению токенов: от десятков долларов за миллион токенов до сотых долей доллара за пару лет.
В связке с законом Мура это даёт агрессивный сценарий: всё более мощные модели смогут работать локально на потребительском железе, без обязательного обращения к облаку.
Классический «просто нарастим параметры и датасет» теряет смысл: у каждой модели есть короткое окно выгодности, после чего выходят более плотные аналоги. Это смещает фокус к density-optimal обучению — архитектуры, пайплайны данных, distillation и другие методы, которые повышают качество на один параметр, а не только общий масштаб.
Предложен своего рода «новый закон Мура» — но не для транзисторов, а для больших языковых моделей. В работе в Nature Machine Intelligence вводится метрика «плотность способностей» (capability density) и показывается, что максимальное значение этой метрики для открытых LLM растёт экспоненциально и примерно удваивается каждые 3,5
Читать на habr.com
