



Deepseek OCR 2 сокращает количество визуальных токенов на 80%
Китайская компания Deepseek, специализирующаяся на искусственном интеллекте, представила новый кодировщик изображений, который перестраивает информацию на основе смысла, а не обрабатывает ее в жестком порядке сверху вниз и слева направо.
Традиционные модели визуально-языкового восприятия разбивают изображения на небольшие фрагменты и обрабатывают их в фиксированном порядке, начиная с верхнего левого угла и двигаясь к нижнему правому. По мнению исследователей Deepseek , такой подход не соответствует тому, как люди видят в реальности. Наши глаза следуют гибким шаблонам, основанным на содержании. Например, при обводке спирали мы не перескакиваем по изображению строка за строкой. Вместо этого мы следуем за формой.
Deepseek OCR 2 пытается имитировать этот подход. Новый DeepEncoder V2 сначала обрабатывает визуальные токены на основе их содержимого, перестраивая их в соответствии с контекстом, прежде чем языковая модель интерпретирует то, что находится внутри. Идея заключается в том, что два этапа обработки, работающие последовательно, могут обеспечить подлинное понимание содержимого двухмерных изображений.
В основе DeepEncoder V2 лежит замена типичного компонента CLIP на компактную архитектуру языковой модели, основанную на Alibaba Qwen2 0.5B. Исследователи представили так называемые токены причинно-следственного потока. Это обучаемые токены запросов, которые прикрепляются к визуальным токенам и могут получать доступ ко всей информации об изображении, а также к предыдущим запросам.
Согласно статье, это создает двухэтапный процесс. Сначала кодировщик реорганизует визуальную информацию на основе контента. Затем декодер LLM, работающий с уже отсортированной последовательностью, анализирует ее. В декодер передаются только
Читать на habr.com