

Исследователи Google представили PaperBanana — агентскую систему, которая генерирует диаграммы для научных работ
Исследователи Google Cloud и Пекинского университета представили PaperBanana — агентский фреймворк для генерации научных диаграмм и графиков. Во время работы система имитирует процесс создания схем, которым пользуются люди: ищет примеры, составляет план и переделывает, если получилось плохо.
Для начала работы достаточно передать на вход PaperBanana текст научной работы и подробные подписи к будущим схемам. После этого в работу включается система из пяти ИИ-агентов:
Retriever — анализирует похожие научные статьи и ищет референсы для изображений;
Planner — планирует, как именно будет выглядеть схема и продумывает композицию;
Stylist — подбирает шрифты, в соответствии со стандартами научных работ, и выбирает цветовую палитру;
Visualizer — генерирует изображение, а для визуализации данных в виде графиков и схем пишет код на Matplotlib, чтобы точно изобразить информацию;
Critic — оценивает финальное изображение, вносит правки и просит переделать, если результат отличается от технического задания.
PaperBanana не только генерирует схемы с нуля, но может и улучшать уже существующие изображения. Для этого на вход надо передать набросок, а нейросеть подберёт более приятные глазу цвета, аккуратно разместит элементы и поработает над структурой.
Для оценки агентского фреймворка исследователи собрали систему PaperBananaBench. Она включает в себя базу из 292 методологических диаграмм из публикаций NeurIPS 2025.
В тестах PaperBanana показывает лучшие результаты по лаконичности, удобочитаемости и эстетичности. Точность всё ещё выше у диаграмм, созданных людьми. Исследователи отмечают, что сгенерированные графики выглядят аккуратнее и красивее, но в некоторых случаях нейросеть всё равно галлюцинирует и может ошибаться.
Авторы проекта уже
Читать на habr.com

