Об этом же в других СМИ

cursorinfo.co.il / 5 месяцев назад

Количество алкоголя, вредящее сердцу, назвали врачи

habr.com / 5 месяцев назад

ЭАЦ InfoWatch: количество утечек данных в финансовой сфере в России выросло в 1,5 раза

habr.com / 5 месяцев назад

Скриншот за 28 млн токенов: как Opus попытался взломать свои ограничения — и почти преуспел

incrypted.com / 5 месяцев назад

Количество запросов о падении цены биткоина до нуля достигло максимума с 2022 года

habr.com / 5 месяцев назад

Gemini 3 бьёт рекорды, OpenAI гонит 1 000 токенов/сек и запускает рекламу в ChatGPT: главные новости AI за неделю

Больше по теме

04.02.2026 - 07:21 / habr.com

Deepseek OCR 2 сокращает количество визуальных токенов на 80%

Китайская компания Deepseek, специализирующаяся на искусственном интеллекте, представила новый кодировщик изображений, который перестраивает информацию на основе смысла, а не обрабатывает ее в жестком порядке сверху вниз и слева направо.

Традиционные модели визуально-языкового восприятия разбивают изображения на небольшие фрагменты и обрабатывают их в фиксированном порядке, начиная с верхнего левого угла и двигаясь к нижнему правому. По мнению исследователей Deepseek , такой подход не соответствует тому, как люди видят в реальности. Наши глаза следуют гибким шаблонам, основанным на содержании. Например, при обводке спирали мы не перескакиваем по изображению строка за строкой. Вместо этого мы следуем за формой.

Deepseek OCR 2 пытается имитировать этот подход. Новый DeepEncoder V2 сначала обрабатывает визуальные токены на основе их содержимого, перестраивая их в соответствии с контекстом, прежде чем языковая модель интерпретирует то, что находится внутри. Идея заключается в том, что два этапа обработки, работающие последовательно, могут обеспечить подлинное понимание содержимого двухмерных изображений.

В основе DeepEncoder V2 лежит замена типичного компонента CLIP на компактную архитектуру языковой модели, основанную на Alibaba Qwen2 0.5B. Исследователи представили так называемые токены причинно-следственного потока. Это обучаемые токены запросов, которые прикрепляются к визуальным токенам и могут получать доступ ко всей информации об изображении, а также к предыдущим запросам.

Согласно статье, это создает двухэтапный процесс. Сначала кодировщик реорганизует визуальную информацию на основе контента. Затем декодер LLM, работающий с уже отсортированной последовательностью, анализирует ее. В декодер передаются только

технологии люди история общество крипто токен gemini MrRjxrby eps Китай

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Anthropic выпустила Claude Sonnet 4.6 с контекстом в 1 млн токенов habr.com / 5 месяцев назад

Base переходит на собственный стек и сокращает зависимость от Optimism — что изменится? incrypted.com / 5 месяцев назад

Триллион параметров, 63 млрд активных: модель Ling-2.5-1T бросает вызов DeepSeek V3.2 habr.com / 5 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 23:27

технологии происшествия смартфон самит гаджет Батарея смартфона быстро умирает из-за опасной ошибки пользователей

Одна распространенная ошибка сокращает срок службы батареи значительно быстрее, чем использование телефона во время зарядки.

25.07 / 22:55

продукты общество Здоровье и красота питание болезнь Как защититься от камней в почках - советы врачей

Профилактика является лучшим методом борьбы с камнями в почках, говорят специалисты.

25.07 / 22:10

технологии общество политика доллар курс Google подтвердила подорожание смартфонов Pixel: новая линейка Pixel 11 станет дороже еще до старта продаж

По словам топ-менеджера, производитель долгое время сдерживал рост цен, несмотря на серьезные изменения на рынке компонентов. Однако ситуация изменилась настолько существенно, что компании пришлось пересмотреть ценовую политику практически для всей линейки устройств.

25.07 / 20:16

технологии общество семья самит intel NEC представила сверхлегкий ноутбук с автономностью более 30 часов: зарядку можно оставить дома

Информация о характеристиках ноутбука опубликована самой NEC, а ключевые технические детали также подтверждаются спецификациями производителя. Новинка ориентирована прежде всего на бизнес-пользователей, которым важны минимальный вес, высокая автономность и современная аппаратная платформа.

25.07 / 19:56

экономика золото общество интересное intel Bosgame E6 ECO: компактная коробка с Intel Core 3 304 и Wi-Fi 7 за $380

Bosgame решила, что рынку мини-ПК не хватает еще одного игрока, и анонсировала модель E6 ECO. Это представитель линейки Ecolite, который не пытается впечатлить мощностью для рендеринга тяжёлого видео, а просто хочет тихо стоять на вашем столе и выполнять повседневные задачи. Официальные продажи стартуют в середине августа 2026 года, а цена вопроса — $380 (около 16900 грн).

25.07 / 19:56

технологии Lenovo интересное intel Вертикальная реальность: Lenovo выпустила моноблок ThinkCentre X AIO Aura Edition с «квадратным» экраном

Пока весь мир старается вместить как можно больше контента в ультраширокие мониторы, Lenovo решила пойти другим путем — вверх. Новый моноблок ThinkCentre X AIO Aura Edition, который наконец-то выбрался за пределы китайского рынка, предлагает формат, от которого у любителей бесконечных таблиц Excel и программного кода должно случиться приятное дежавю. Устройство выглядит как попытка напомнить нам, что вертикальное пространство иногда важнее панорамных видов в играх.

25.07 / 19:48

связь технологии смартфон деньги интернет Пользователи WhatsApp столкнулись с массовыми блокировками

Десятки пользователей внезапно потеряли доступ к аккаунтам, а причины происходящего до сих пор остаются неизвестными.

25.07 / 19:41

реклама технологии смартфон общество самит За вами следит собственный смартфон - как остановить скрытую слежку

Даже без подключения к Wi-Fi телефон способен оставлять цифровой след, по которому можно узнавать владельца и фиксировать его перемещения.

25.07 / 19:18

технологии дети самит курс интересное HMD представила компактный Touch AI с дизайном в стиле Nokia Lumia и встроенным ИИ: смартфон создан для цифрового детокса

Устройство уже доступно для предварительного заказа в Китае по цене 469 юаней. По актуальному курсу это составляет примерно 2 900 гривен. При этом производитель делает ставку не на производительность, а на удобство повседневного использования, автономность и минимализм.

25.07 / 19:08

люди ученые общество самит человек Идеальное мужское лицо - какая черта оказалась важнее остальных

Анализ сотен мужских лиц показал, какая особенность внешности сильнее остальных влияет на первое впечатление и привлекательность.

Лента новостей

На главную страницу