




Как Gemini 3 Pro разбирает рукописи XVIII века и находит ошибки в тетрадях школьников
Google опубликовала рассказ о визуальных возможностях Gemini 3 Pro — и показала их на двух неожиданных примерах. Первый: рукописный журнал американского купца XVIII века из Олбани, который модель превратила в аккуратную структурированную таблицу. Второй: сфотографированная тетрадь школьника с решением задачи — Gemini 3 Pro не просто нашла ошибки, но визуально разметила их прямо поверх рукописного текста, показав, где именно ученик сбился. Компания называет это "скачком от распознавания к рассуждению [внутри изображений и видео]).
За этими примерами стоит технология, которую Google называет derendering — способность модели восстановить из изображения документа структурированный код (HTML, LaTeX или Markdown), который этот документ описывает. По сути, обратная разработка визуала: диаграмма Флоренс Найтингейл из XIX века превращается в интерактивный график с переключателями, картинка с математическими формулами — в точный LaTeX-код. Это работает с рукописным текстом, вложенными таблицами, нелинейной версткой и смешанным контентом.
Google подкрепляет заявления бенчмарками: на CharXiv Reasoning, который измеряет способность рассуждать по графикам и таблицам, Gemini 3 Pro показала 81,4% — выше среднего человеческого уровня (80,5%). В качестве демонстрации компания взяла 62-страничный отчет Бюро переписи США "Income in the United States: 2022" и попросила модель сравнить изменения индекса Джини по разным типам дохода, объяснить расхождения и определить динамику доли нижнего квинтиля. Модель нашла нужные данные в нескольких таблицах и графиках, связала их с текстовым анализом в отчете и корректно вывела, что расхождение связано с окончанием программ ARPA и стимулирующих выплат.
Те же принципы Google распространяет на другие
Читать на habr.com