

Judge-Image от Patronus AI стремится сделать ИИ честным — и Etsy уже внедрила эту технологию
Patronus AI представила мультимодальную языковую модель-судью (MLLM-as-a-Judge) — инструмент, предназначенный для оценки ИИ-систем, интерпретирующих изображения и генерирующих текст.
Эта технология оценки призвана помочь разработчикам выявлять и устранять галлюцинации и проблемы с надёжностью в мультимодальных ИИ-приложениях. Крупнейшая e-commerce платформа Etsy уже внедрила эту разработку для проверки точности подписей к изображениям товаров на своей площадке, где представлены изделия ручной работы и винтажные предметы.
«Мы невероятно рады объявить, что Etsy стала одним из наших первых клиентов», — сказал Ананд Каннаппан, сооснователь Patronus AI, в эксклюзивном интервью изданию VentureBeat. «На их платформе представлены сотни миллионов товаров, созданных людьми со всего мира. Их команда ИИ стремилась использовать генеративный ИИ для автоматической генерации подписей к изображениям и хотела убедиться, что при масштабировании на глобальную аудиторию эти подписи остаются точными».
Почему в основе нового ИИ-судьи лежит Gemini от Google, а не GPT от OpenAI
Первая модель MLLM-as-a-Judge от Patronus — Judge-Image — была создана на базе модели Gemini от Google после всестороннего сравнения с альтернативами, включая GPT-4V от OpenAI.
«Мы заметили, что GPT-4V чаще демонстрировала склонность к эгоцентричному восприятию, тогда как Gemini оказалась менее предвзятой и показала более сбалансированный подход к оценке различных пар "ввод-вывод"», — пояснил Каннаппан. «Это проявилось в равномерном распределении оценок по разным источникам».
Исследование компании также дало неожиданные результаты: в отличие от текстовых задач, где многошаговое рассуждение улучшает результаты, в мультимодальной оценке изображений это, как правило, не повышает
Читать на habr.com

