Об этом же в других СМИ

gagadget.com / 1 год назад

FAW-Volkswagen готовит электрический прорыв в Китае - 11 новых моделей с 2026 года

habr.com / 1 год назад

Митап по технической документации. Битва подходов HFLabs и «Контура»

itc.ua / 1 год назад

Интернет в Украине «разогнался» до 83,81 Мбит/с, а количество пользователей выросло до 31,5 млн человек — отчет DataReportal

incrypted.com / 1 год назад

Bitget опубликовала отчет о прозрачности за февраль

gagadget.com / 1 год назад

Monster Hunter Wilds заработала больше всего денег на ПК, несмотря на серьезные технические проблемы игры

Больше по теме

25.02.2025 - 13:07 / habr.com

Технический отчет мультимодальной Qwen2.5-VL: прорыв в анализе документов и управлении интерфейсами

Привет, Хабр! Вчера команда Qwen (Alibaba) представила долгожданный техрепорт визуальной языковой модели (VLM) Qwen2.5-VL. Новую модель улучшили в задачах компьютерного зрения, локализации объектов, анализа документов и понимания видео длительностью до часа. В этой статье мы разберем ключевые технические инновации, архитектурные особенности и экспериментальные результаты модели, а также взглянем на интересные детали, упомянутые в официальном отчете.

Qwen2.5-VL демонстрирует высокую точность определения локализации объектов – будь то данные из документов, диаграмм, графиков или таблиц.

Модель использует динамическое разрешение изображений и абсолютное временное кодирование, что позволяет ей адаптироваться к входам различного масштаба и длительности.

Одной из революционных возможностей является анализ видео с точностью до секунд, даже для видео длительностью до часа.

Помимо статических задач, модель способна выполнять интерактивное взаимодействие с интерфейсами компьютеров и мобильных устройств, демонстрируя элементы агентности в прикладных задачах.

Одной из центральных новаций является window attention в визуальном энкодере. Благодаря этому механизму вычислительные затраты значительно снижаются, что особенно важно при обработке изображений с высоким разрешением. При этом архитектура ViT (Vision Transformer) обучается с нуля, что позволяет максимально адаптировать модель под задачи мульти-модального понимания.

Помимо этого, вводится адаптивное сжатие пространственных патчей – вместо прямой передачи сырых патчей, авторы группируют их по 4 штуки и пропускают через двухслойный MLP. Этот прием позволяет гибко изменять длину последовательности признаков и существенно снижать нагрузку на последующие блоки модели.

Для работы с

бизнес экономика интересное крипто

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

TDMS Фарватер 24.2: техническое обновление системы управления проектами habr.com / 1 год назад

Wi-Fi 6, два порта USB-C и модуль NFC: стали известны новые технические подробности Nintendo Switch 2 gagadget.com / 1 год назад

Cisco и Nvidia предлагают решения для преодоления технических барьеров при внедрении ИИ habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

07.07 / 06:13

технологии Toyota Nissan общество honda В Toyota с помощью ИИ унифицируют терминологию в документации

Toyota Motor ищет возможности для дальнейшей оптимизации бизнес-процессов внутри компании с использованием искусственного интеллекта. Специалисты подсчитали, что только за счёт унификации терминологии в документации и информационных системах можно на 30% сократить количество промежуточных операций и ускорить процесс выпуска автомобилей.

07.07 / 06:13

технологии Вышло обновление открытой легковесной утилиты для проверки целостности файлов Precizer 0.16.0

В начале июня 2026 года вышло обновление открытого проекта Precizer 0.16.0. Это консольная утилита, предназначенная для проверки целостности больших деревьев файлов и выявления расхождений после синхронизации данных.

07.07 / 06:13

технологии Valve выпустила проект по созданию и настройке лицевой панели Steam Machine на основе электронных чернил

Valve опубликовала полные CAD-файлы, спецификации, список материалов и видеоинструкцию по изготовлению лицевой панели Inkterface на основе электронных чернил для компактного компьютера Steam Machine. Всё это пригодится пользователям для самостоятельной печати и сборки лицевой панели на E-Ink.

07.07 / 06:06

здоровье общество фрукты самит врачи Четыре фрукта, которые укрепляют сосуды и снижают давление – врач

Помимо правильного питания, включающего полезные фрукты, профилактика сердечно-сосудистых заболеваний невозможна без отказа от вредных привычек.

07.07 / 06:06

животные общество собака биологи кошка Секрет дружбы кошек и собак раскрыли ученые

Совместное взросление позволяет кошкам и собакам преодолевать природные барьеры. Животные учатся безошибочно считывать сигналы друг друга.

07.07 / 06:02

люди закон история общество самит Японский рыбный деликатес: как люди умирают, попробовав Фугу

Кулинарные критики предполагают, что на самом деле нейротоксин рыбы фугу придает еде «приятное ощущением онемения».

07.07 / 05:56

лайфхаки для бизнеса Стратегические игры и проектирование будущего - Журнал "ФОКУС ВНИМАНИЯ"

14 июня отмечается День стратегических игр. И если раньше при этом словосочетании воображение рисовало исключительно гроссмейстеров за шахматной доской или подростков, штурмующих виртуальные крепости, то сегодня стратегические игры вышли на абсолютно новый уровень.

07.07 / 05:35

продукты технологии люди школы животный мир «Авито» запустит ИИ-сервис «ХвостРадар» для поиска пропавших домашних животных

Площадка «Авито» объявила о запуске бесплатного сервиса «ХвостРадар», который позволит искать пропавших домашних животных с помощью искусственного интеллекта. Он заработает 6 июля.

07.07 / 05:25

продукты продукты питания общество фрукты Здоровье и красота Кому нельзя абрикосы – врачи перечислили скрытые опасности

Высушенная курага содержит концентрированные калории и избыточный сахар. Переесть сухими плодами значительно проще, чем свежими.

07.07 / 05:19

Samsung технологии СМИ общество Samsung Galaxy S27 Pro не станет «мини-версией» Ultra: раскрыты новые отличия между моделями

Как сообщают источники, Galaxy S27 Pro получит не такой процессор, как старшая модель, а значит, различия между устройствами окажутся более существенными, чем предполагалось ранее.

Лента новостей

На главную страницу