
BrowseComp: новый тест для ИИ-агентов по поиску информации в интернете от OpenAI
BrowseComp - это новый бенчмарк от OpenAI, созданный для оценки способности ИИ-агентов эффективно искать информацию в интернете. Бенчмарк включает в себя 1266 вопросов, которые требуют от модели творческого подхода в поиске информации на разных сайтах. Эти вопросы не просто требуют фактов, их нужно искать, объединяя информацию с разных источников, делая задачу по-настоящему сложной.
Интернет значительно изменил наш доступ к информации, но поиск информации до сих пор остается проблемным для людей. У людей есть ограничения: мы можем забывать, нас отвлекают другие задачи, и мы не можем работать с множеством вкладок одновременно. Машины, напротив, могут работать без усталости и отвлечений, но даже они сталкиваются с трудностями, когда нужно найти информацию, которая скрыта глубоко в интернете. BrowseComp создан, чтобы оценить ИИ-агентов, которые должны справляться с такими сложными задачами.ё
BrowseComp специально создан для того, чтобы предлагать сложные вопросы. Здесь не идет речь о простых фактах, а о задачах, где нужно найтиинформацию, рассеянную по множеству сайтов. Примеры таких вопросов включают вопросы о редких спортивных событиях, научных статьях или исторических фактах, которые не могут быть найдены простым поиском в Google.
Пример 1: Какая футбольная игра между 1990 и 1994 годами включала бразильского судью, 4 желтых карточки и 4 замены, одна из которых была связана с травмой в первые 25 минут матча? Ответ: Ирландия против Румынии.
Пример 2: Кто является вымышленным персонажем, который иногда обращается к зрителям, имеет историю, связанную с помощью самоотверженных аскетов, известен своим юмором и вел телевизионное шоу в 1960-1980-х годах с менее чем 50 эпизодами? Ответ: Пластик Ман.
Несмотря на сложность этих
Читать на habr.com
