Об этом же в других СМИ

incrypted.com / 1 месяц назад

DeepSeek снизил цену на флагманский ИИ на 75%

gagadget.com / 1 месяц назад

DeepSeek обваливает цены: китайский ИИ становится дешевле кофе

cursorinfo.co.il / 1 месяц назад

Философия возраста: чему китайская пословица учит людей эпохи соцсетей

gagadget.com / 1 месяц назад

Новый Atlas от Boston Dynamics: теперь он таскает холодильники и учится за сутки

habr.com / 2 месяца назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

Больше по теме

05.05.2026 - 13:18 / habr.com

DeepSeek учит модель «тыкать пальцем» в кадр по ходу рассуждения

DeepSeek совместно с Пекинским университетом и университетом Цинхуа 30 апреля выложил технический отчет "Thinking with Visual Primitives" — новый подход к мультимодальному рассуждению, который помогает модели лучше видеть изображения и видео, понимая, что действительно на них произошло. Идея простая: вместо словесных описаний вида "третий пес слева" модель прямо в цепочке рассуждений выдает координаты объектов на картинке, словно тыкая в них пальцем. Решение построено на свежей DeepSeek-V4-Flash (284 миллиарда общих параметров, 13 миллиардов активных) и в задачах вроде навигации по лабиринту обходит GPT-5.4 на 17 процентных пунктов.

Авторы вводят новый термин Reference Gap (разрыв референции). До этого вся индустрия закрывала Perception Gap — то, что модель плохо различает мелкие детали в плотных сценах, отсюда работа с высоким разрешением и нарезка картинки на фрагменты, а заодно подход OpenAI "thinking with images". В DeepSeek возражают: даже если модель видит идеально, остается второй разрыв — естественный язык слишком неоднозначен, чтобы точно указать на конкретный объект в сцене с десятками похожих. На задачах вроде "посчитай людей на групповом фото" или "найди путь в лабиринте" лингвистическая мысль теряет связь с визуальной сущностью и галлюцинирует.

Технически это выглядит так: прямо внутри цепочки рассуждений модель вставляет спецтокены вида <|ref|>dogs<|/ref|><|box|>[[452,23,804,411],[50,447,647,771]]<|/box|>. Координаты — нормализованные целые числа от 0 до 999. Точки и bounding box-ы становятся "минимальными единицами мысли" — аналогия в статье прямая: палец, которым человек тычет в сцену, когда считает или ищет дорогу. Предварительная тренировка дала модели базовое умение генерировать примитивы, дальше — пять

связь люди экономика общество самит токен runawayllm eps Пекин

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Космос без очередей: Fenix Space учит ракеты взлетать с обычных аэродромов gagadget.com / 2 месяца назад

DeepSeek вспомнил всё: в популярном ИИ-сервисе появился поиск по истории чатов gagadget.com / 2 месяца назад

Быстрее и точнее: как ИИ учит роботов работать как люди chudo.tech / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

18.07 / 01:01

медицина люди наука общество депрессия Не зрение и не слух: шестое чувство, о котором многие даже не слышали

Это чувство играет центральную роль в способности человека определять, находится ли его организм в состоянии баланса.

17.07 / 23:26

продукты люди здоровье общество человек Почему не стоит полностью отказываться от соли - ответ врачей

Соль считают вредной, однако ее полное исключение из рациона может привести к неприятным последствиям для здоровья и самочувствия.

17.07 / 22:52

самит Знаменитости курс nintendo мода и стиль Casio выпустила лимитированные G-Shock в стиле культовой Mother 3: часы получили необычный дизайн и эксклюзивный способ продажи

Компания Casio официально представила новую лимитированную версию часов G-Shock DW-5600, созданную совместно с культовой игровой франшизой Mother от Nintendo. Новинка посвящена 20-летию игры Mother 3 и получила яркое оформление, вдохновленное одной из самых запоминающихся сцен проекта.

17.07 / 20:44

Samsung технологии reddit Samsung объяснила странный дефект экрана Galaxy S26 Ultra: проблема оказалась не такой серьезной, как опасались владельцы

Некоторые владельцы Samsung Galaxy S26 Ultra обратили внимание на необычную особенность дисплея нового флагмана. При использовании смартфона на максимальной яркости под прямыми солнечными лучами в центральной части экрана может появляться легкий красноватый оттенок. Сначала пользователи предположили, что речь идет о серьезной аппаратной неисправности, однако Samsung уже выступила с официальным разъяснением и подтвердила, что готовит программное исправление.

17.07 / 20:12

продукты медицина общество самит жара Как охладить кровать за 10 минут - простой трюк, спасающий от жары

Жаркие летние ночи часто становятся настоящим испытанием, но есть способ с этим справиться.

17.07 / 20:12

туризм общество евро курорт пляж Популярные курорты атакует рыба-монстр - может раздробить кости

На опасное существо начали жаловаться рыбаки, ее уже замечают туристы на популярных пляжах.

17.07 / 20:12

связь люди книги психология Психология и отношения Ученый раскрыл "секрет счастья" - все проще, чем кажется

Известный ученый рассказал, что его жизнь буквально разделилась на две части и после 50 лет он стал счастливым.

17.07 / 20:12

здоровье общество самит Здоровье и красота полезные продукты Какие грибы могут обеспечить надежную защиту от рака

Врачи и диетологи советуют чаще включать в свой рацион грибы - особые элементы в их составе могут надежно защитить от развития раковых клеток.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

Лента новостей

На главную страницу