



Самообучающаяся DINOv3✶ от Meta✶ обгоняет конкурентов в анализе изображений
Обычно обучение систем искусственного интеллекта для генерации или анализа изображений требует колоссальных объемов данных: фотографии, скажем, котов вручную снабжаются ярлыками — «кот», «идет», «полосатый». Но DINOv3✶ от Meta✶ пошла иным путем: она обучалась на 1,7 млрд изображений без каких‑либо меток и теперь умеет решать множество задач без человеческого вмешательства, нередко опережая специализированные модели.
Зачастую обучение нейросетей в области компьютерного зрения держится на «человеческих метках». Но такие ярлыки далеко не всегда отражают всё содержимое изображения и, более того, плохо работают с динамическим видео. Предшественница новой модели, DINOv2✶, показала, что самонаблюдаемое обучение позволяет создавать куда более точные сегментации движущихся картинок, чем прежние методы. Так как ей не нужны метки, она впитывает данные, которые человеку было бы трудно или попросту невозможно объяснить словами.
DINOv3✶ стала следующим шагом. Главное новшество — революционная методика обучения без разметки, позволившая увеличить размер модели почти в семь раз: с 1,1 млрд параметров у DINOv2✶ до примерно 7 млрд у DINOv3✶.
Объем данных также вырос в разы — почти в двенадцать: вместо 142 млн картинок для DINOv2✶ теперь использовано около 1,7 млрд.
При обычной загрузке фото или видео приходится вручную размечать материал. DINOv3✶ полностью снимает эту необходимость: она учится улавливать все детали, включая фон. Более того, модель сама придумывает себе задания — скрывает часть изображения и пытается восстановить недостающий фрагмент или, например, поворачивает и обрезает снимок, чтобы исследовать его особенности.
Ниже представлены результаты, сравнивающие DINOv3✶ с DINO✶, DINOv2✶, а также продвинутыми моделями Google DeepMind
Читать на habr.com