LM Arena обвиняют в предоставлении «избранным» AI-компаниям несправедливых преимуществ при тестировании моделей
В новом документе лаборатории искусственного интеллекта Cohere, Стэнфорда, Массачусетского технологического института и Ai2 обвиняется LM Arena, организация, стоящая за популярным краудсорсинговым бенчмарком в области искусственного интеллекта Chatbot Arena, в помощи избранной группе компаний, занимающихся разработкой искусственного интеллекта, в достижении более высоких результатов в рейтингах за счет конкурентов.
По словам авторов, LM Arena позволила некоторым ведущим в отрасли компаниям AI, таким как Meta*, OpenAI, Google и Amazon, провести закрытое тестирование нескольких вариантов моделей AI, а затем не публиковать оценки худших исполнителей. Это облегчило этим компаниям задачу занять лидирующие позиции в рейтинге платформы, хотя такая возможность была предоставлена не каждой фирме, говорят авторы.
«Лишь нескольким компаниям сообщили, что это частное тестирование доступно, и объем частного тестирования, которое получили некоторые компании, просто намного больше, чем другие», — сказала вице-президент Cohere по исследованиям AI и соавтор исследования Сара Хукер в интервью TechCrunch. «Это геймификация».
Chatbot Arena, созданная в 2023 году как академический исследовательский проект Калифорнийского университета в Беркли, стала эталоном для компаний, занимающихся AI. Она работает, помещая ответы двух разных моделей AI рядом в «битве» и предлагая пользователям выбрать лучшую из них. Нередко можно увидеть невыпущенные модели, соревнующиеся на арене под псевдонимом.
Голоса с течением времени влияют на оценку модели — и, следовательно, на ее место в таблице лидеров Chatbot Arena. Хотя в Chatbot Arena участвуют многие коммерческие игроки, LM Arena давно утверждает, что ее бенчмарк является беспристрастным и справедливым.
Однако
Читать на habr.com