

Pixio от Meta* доказывает, что простая реконструкция пикселей может превзойти сложные модели компьютерного зрения
Исследователи из Meta* AI разработали модель обработки изображений, которая обучается исключительно за счет реконструкции пикселей. Pixio превосходит более сложные методы оценки глубины и 3D-реконструкции, несмотря на меньшее количество параметров и более простой подход к обучению.
Распространенный способ обучения моделей ИИ пониманию изображений заключается в том, чтобы скрыть части изображения и позволить модели заполнить недостающие области. Для этого модель должна научиться понимать, что обычно присутствует на изображениях: формы, цвета, объекты и их пространственное расположение.
Этот метод, известный как маскированный автокодировщик (MAE), недавно считался менее эффективным, чем более сложные методы, такие как DINOv2 или DINOv3. Однако исследовательская группа Meta* AI в своем исследовании показала, что это не всегда так: их улучшенная модель Pixio превосходит DINOv3 в ряде практических задач.
Исследователи демонстрируют возможности Pixio на примерах реконструкции пикселей. При работе с изображениями, сильно замаскированными пикселями, модель выходит за рамки реконструкции текстур и улавливает пространственное расположение сцены. Она распознает симметричные цветовые узоры и понимает отражения, даже предсказывая наличие зеркального отражения человека в окне, даже если эта область была скрыта.
Эти возможности возникают потому, что модели необходимо понимать, что видно, чтобы точно это воссоздать: какие объекты присутствуют, как структурировано пространство и какие закономерности повторяются.
Pixio основана на фреймворке MAE, представленном Meta* в 2021 году. Исследователи выявили недостатки в первоначальной конструкции и внесли три основных изменения. Во-первых, они усилили декодер - часть модели, которая восстанавливает
Читать на habr.com
