
OpenAI добавляет модель изображения ChatGPT «GPT-Image-1» в API для разработчиков
OpenAI сделала свою модель генерации мультимодальных изображений GPT-Image-1 доступной разработчикам через API. Ранее ограниченная ChatGPT, эта модель теперь принимается такими компаниями, как Adobe и Figma. По данным OpenAI, модель сгенерировала более 700 миллионов изображений для более чем 130 миллионов пользователей за первую неделю в ChatGPT. С более широкой доступностью через API это число, вероятно, будет расти.
Если отбросить шумиху вокруг Ghibli, модель OpenAI известна своим высокоточным отслеживанием подсказок, которое намного точнее, чем другие доступные модели изображений. В прямом сравнении новая Midjourney-v7 показала значительно более слабую производительность.
Обработка изображений с помощью gpt-image-1 оплачивается токенами. Структура ценообразования API различает текстовые токены, токены ввода изображений и токены вывода изображений. Текстовые токены оцениваются в 5 долларов за миллион, токены ввода изображений — в 10 долларов за миллион, а токены вывода изображений — в 40 долларов за миллион. В зависимости от выбранного качества изображения стоимость обычно составляет от 0,02 до 0,19 долларов за изображение.
Для GPT-4.1 и GPT-4o использование токенов зависит как от размера изображения, так и от выбранного уровня детализации. Фиксированная ставка в 85 токенов взимается за «детализацию: низкую». Для «детализации: высокую» изображение делится на плитки по 512 пикселей, каждая из которых добавляет 170 токенов к базовой ставке. Например, изображение 1024×1024 с высокой детализацией требует 765 токенов (четыре плитки плюс 85 токенов).
Другие модели, такие как GPT-4.1-mini, используют расчет на основе 32×32 пиксельных патчей с максимальным количеством токенов изображений 1536. Более крупные изображения, такие как
Читать на habr.com