DeepSeek учит модель «тыкать пальцем» в кадр по ходу рассуждения
DeepSeek совместно с Пекинским университетом и университетом Цинхуа 30 апреля выложил технический отчет "Thinking with Visual Primitives" — новый подход к мультимодальному рассуждению, который помогает модели лучше видеть изображения и видео, понимая, что действительно на них произошло. Идея простая: вместо словесных описаний вида "третий пес слева" модель прямо в цепочке рассуждений выдает координаты объектов на картинке, словно тыкая в них пальцем. Решение построено на свежей DeepSeek-V4-Flash (284 миллиарда общих параметров, 13 миллиардов активных) и в задачах вроде навигации по лабиринту обходит GPT-5.4 на 17 процентных пунктов.
Авторы вводят новый термин Reference Gap (разрыв референции). До этого вся индустрия закрывала Perception Gap — то, что модель плохо различает мелкие детали в плотных сценах, отсюда работа с высоким разрешением и нарезка картинки на фрагменты, а заодно подход OpenAI "thinking with images". В DeepSeek возражают: даже если модель видит идеально, остается второй разрыв — естественный язык слишком неоднозначен, чтобы точно указать на конкретный объект в сцене с десятками похожих. На задачах вроде "посчитай людей на групповом фото" или "найди путь в лабиринте" лингвистическая мысль теряет связь с визуальной сущностью и галлюцинирует.
Технически это выглядит так: прямо внутри цепочки рассуждений модель вставляет спецтокены вида <|ref|>dogs<|/ref|><|box|>[[452,23,804,411],[50,447,647,771]]<|/box|>. Координаты — нормализованные целые числа от 0 до 999. Точки и bounding box-ы становятся "минимальными единицами мысли" — аналогия в статье прямая: палец, которым человек тычет в сцену, когда считает или ищет дорогу. Предварительная тренировка дала модели базовое умение генерировать примитивы, дальше — пять
Читать на habr.com


