

OpenAI представила модель 3D-генерации POINT-E
Компания OpenAI выпустила новый алгоритм генерирования трехмерных изображений по текстовому запросу POINT-E.
Согласно исследованию, модели требуется один графический процессор Nvidia V100 и около двух минут для создания изображения.
Алгоритм не создает 3D-объекты в традиционном понимании. Он генерирует «облака точек» или дискретные наборы точек данных в пространстве, которые представляют трехмерную форму.
Исследователи отметили, что такие данные проще синтезировать с вычислительной точки зрения. Однако они не охватывают детализированную структуру, форму или текстуру объекта.
Трехмерные объекты, созданные с помощью POINT-E. Данные: OpenAI.Чтобы обойти это ограничение, команда OpenAI обучила дополнительную систему ИИ для преобразования облаков точек POINT-E в сетки.
Сам POINT-E состоит из двух частей:
модели преобразования текста в изображение;модели преобразования изображения в 3D.Модель преобразования текста в изображение работает аналогично DALL-E 2. Ее обучили на помеченных изображениях, чтобы алгоритм понимал ассоциации между словами и визуальными понятиями.
Модель преобразования изображения в 3D обучили на парах картинка-трехмерный объект.
Например, если ввести текстовый запрос «Кошка ест буррито», POINT-E сначала сгенерирует синтетическое изображение в соответствии с текстовой подсказкой. После этого вторая модель синтезирует грубое «облако» с 1024 точками, а затем улучшит 3D-объект до 4096 точек.
Превращение 2D-изображения в 3D. Данные: OpenAI.По словам исследователей, после обучения моделей на наборе данных из «нескольких миллионов» 3D-объектов и связанных с ними метаданных POINT-E может создавать цветные облака точек, соответствующие текстовым подсказкам. Они признали неидеальную работу модели, однако отметили
Читать на forklog.com

