



Baidu представила мультимодальную ERNIE, которая обходит GPT и Gemini в ключевых тестах
Baidu выпустила новую мультимодальную модель ERNIE-4.5-VL-28B-A3B-Thinking, и по ряду бенчмарков она уже показывает результаты выше GPT-5 и Gemini 2.5 Pro. Главный акцент — на корпоративных данных, которые остаются недоступными для классических текстовых моделей: инженерные схемы, видео с производственных линий, медицинские изображения и другой «тяжёлый» контент.
Архитектурно ERNIE примечательна тем, что остаётся «лёгкой»: в процессе работы активируется порядка трёх миллиардов параметров. Это снижает стоимость инференса и делает модель потенциально более пригодной для проектов, где масштабирование ИИ тормозится из-за цены вычислений. В Baidu видят в этом основу для мультимодальных агентов нового поколения — не просто распознающих, но и способных рассуждать, принимать решения и действовать.
Модель демонстрирует уверенную работу с плотными визуальными данными: от анализа графиков с подсказками по оптимальному времени посещения до решения схем с применением законов Ома и Кирхгофа. В технических департаментах такая система может проверять проектные документы или помогать новичкам разбираться в сложных чертежах.
По данным Baidu, ERNIE опередила конкурентов на нескольких популярных тестах:
MathVista: ERNIE (82.5) против Gemini (82.3) и GPT (81.3)
ChartQA: ERNIE (87.1) против Gemini (76.3) и GPT (78.2)
VLMs Are Blind: ERNIE (77.3) против Gemini (76.5) и GPT (69.6)
При этом Baidu подчёркивает очевидное: бенчмарки — индикатор, но не гарантия реальных результатов. Перед внедрением ИИ в критичные процессы нужен внутренний пилот.
Одно из ключевых направлений развития ERNIE — переход от «понимания» к автоматизации. Модель умеет находить объекты на изображении, возвращать координаты в структурированном виде, увеличивать нужный фрагмент для
Читать на habr.com