PhotoDoodle: система ИИ для редактирования изображений с сохранением стиля и композиции
Исследователи из университетов Китая и Сингапура совместно с ByteDance создали PhotoDoodle — впечатляющую новую систему искусственного интеллекта для редактирования изображений. Модель способна анализировать различные художественные стили всего по нескольким образцам изображений, а затем точно выполнять конкретные инструкции по редактированию.
PhotoDoodle основан на модели генерации изображений Flux.1, разработанной немецким стартапом Black Forest Labs, с использованием архитектуры диффузионного трансформера и предварительно обученных параметров.
Сначала исследователи разработали OmniEditor — версию Flux.1, модифицированную для обработки изображений с помощью LoRA (адаптации с низким рангом). Этот метод не изменяет напрямую все весовые коэффициенты сети, а вместо этого добавляет небольшие специализированные матрицы. Эти матрицы можно обучать, не сильно изменяя исходную модель, что позволяет вносить как небольшие изменения в концепцию, так и полностью менять стиль.
Вероятно, команда получила необходимый набор данных SeedEdit в результате экспериментов с одноимённой моделью редактирования изображений ByteDance, которая была представлена в прошлом году. В статье не приводится конкретных сведений о происхождении набора данных.
Затем исследователи обучили OmniEditor воспроизводить стили отдельных художников с помощью варианта LoRA под названием EditLoRA. Изучая выбранные пары изображений, EditLoRA обращает внимание на нюансы каждого художественного стиля. Согласно статье, обучающие данные были созданы в сотрудничестве с самими художниками.
Этот подход решает важнейшую проблему: гармоничное добавление декоративных элементов в изображения с сохранением правильной перспективы, контекста и желаемого стиля. Исследователи отмечают, что
Читать на habr.com