Об этом же в других СМИ

habr.com / 1 год назад

Cast AI привлекает $108 млн для максимальной отдачи от AI

cursorinfo.co.il / 1 год назад

Новый риск для туристов: популярный предмет запретили к перевозке

habr.com / 1 год назад

Протестируйте TDMS Фарватер Web – новую систему для организации документооборота и управления средой общих данных

habr.com / 1 год назад

Обновление JetBrains AI: новый тариф, поддержка MCP и поиск в Интернете

hitechexpert.top / 1 год назад

В 2025 году Ирландия уделит первостепенное внимание безопасности детей в Интернете

Больше по теме

17.04.2025 - 02:55 / habr.com

BrowseComp: новый тест для ИИ-агентов по поиску информации в интернете от OpenAI

BrowseComp - это новый бенчмарк от OpenAI, созданный для оценки способности ИИ-агентов эффективно искать информацию в интернете. Бенчмарк включает в себя 1266 вопросов, которые требуют от модели творческого подхода в поиске информации на разных сайтах. Эти вопросы не просто требуют фактов, их нужно искать, объединяя информацию с разных источников, делая задачу по-настоящему сложной.

Интернет значительно изменил наш доступ к информации, но поиск информации до сих пор остается проблемным для людей. У людей есть ограничения: мы можем забывать, нас отвлекают другие задачи, и мы не можем работать с множеством вкладок одновременно. Машины, напротив, могут работать без усталости и отвлечений, но даже они сталкиваются с трудностями, когда нужно найти информацию, которая скрыта глубоко в интернете. BrowseComp создан, чтобы оценить ИИ-агентов, которые должны справляться с такими сложными задачами.ё

BrowseComp специально создан для того, чтобы предлагать сложные вопросы. Здесь не идет речь о простых фактах, а о задачах, где нужно найтиинформацию, рассеянную по множеству сайтов. Примеры таких вопросов включают вопросы о редких спортивных событиях, научных статьях или исторических фактах, которые не могут быть найдены простым поиском в Google.

Пример 1: Какая футбольная игра между 1990 и 1994 годами включала бразильского судью, 4 желтых карточки и 4 замены, одна из которых была связана с травмой в первые 25 минут матча? Ответ: Ирландия против Румынии.

Пример 2: Кто является вымышленным персонажем, который иногда обращается к зрителям, имеет историю, связанную с помощью самоотверженных аскетов, известен своим юмором и вел телевизионное шоу в 1960-1980-х годах с менее чем 50 эпизодами? Ответ: Пластик Ман.

Несмотря на сложность этих

люди спорт закон история общество Шоу бизнес Румыния Ирландия

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

AI-плейлист Spotify выходит в Азии и на других рынках habr.com / 1 год назад

Искусственный интеллект предсказал, кто станет новым Папой Римским charter97.org / 1 год назад

Поиск ChatGPT стремительно растёт в Европе hitechexpert.top / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 17:29

экономика искусственный интеллект общество журналист электроэнергия ИИ уже начинает разрушать планету - новое исследование

Развитие инфраструктуры искусственного интеллекта становится не только технологическим прорывом, но и серьезным экологическим вызовом.

17.07 / 17:25

технологии общество мода и стиль Первое городское пространство «Яндекса» откроется в Москве в ноябре 2026 года

В ноябре 2026 года в галерее «Чкалов» на площади Курского вокзала откроется «Яндекс 01» — первое городское офлайн‑пространство «Яндекса». Его главная особенность — персональные рекомендации: на основе интересов посетителя технологии компании предложат маршрут по пространству и помогут подобрать подходящие события, магазины и развлечения. Вход на большинство мероприятий будет свободным.

17.07 / 17:24

технологии экономика Apple общество самит TSMC увеличила инвестиции в производство чипов в США: это может повлиять на будущие процессоры Apple

Тайваньская компания TSMC, являющаяся главным производственным партнером Apple, официально объявила о масштабном расширении своей инвестиционной программы в США. Производитель микросхем направит еще 100 млрд долларов (около 4,16 трлн гривен по актуальному курсу), благодаря чему общий объем вложений в американские предприятия достигнет 265 млрд долларов (примерно 11,02 трлн гривен).

17.07 / 17:05

общество самит психология дети и родители Психология и отношения Как понять, что извинения не были искренними - главные признаки

Психолог рассказал, как понять, что человек, который перед вами извиняется, неискренен и преследует свои цели.

17.07 / 17:05

люди общество отдых вирус самит Пережить сезон комаров: полезные привычки, которые спасут от укусов

Назойливое жужжание комара возле уха, зуд от укусов и воспаления на коже способны всем испортить настроение. Но всего этого можно избежать.

17.07 / 17:05

общество политика журналист Война Украины с Россией Путинская "СВО" окончательно провалилась - CNN раскрыл катастрофу РФ

Российский диктатор готов жертвовать тысячами военных ради минимального продвижения на Донбассе. Но и это не приносит ощутимых результатов.

17.07 / 17:05

здоровье общество человек еда ожирение Популярный миф о жире и мышцах развенчали ученые

Исследователи рассказали, как правильно действовать тем, кто хочет быстрее накачать мышцы и избавиться от жира.

17.07 / 17:05

люди здоровье общество мозг тесты Как оценить состояние здоровья за 20 секунд - простой тест

Простой тест может стать ценным показателем общего физического и неврологического состояния.

17.07 / 17:02

самит Только время и ничего лишнего: Casio выпустила три новые модели в ретро-стиле лаконичной серии MTP-B146

Casio представила на рынке США три новые модели аналоговых часов из серии MTP-B146. В линейку вошли две модели в серебристом исполнении (MTP-B146D-1AV и MTP-B146D-2AV), а также версия с золотистым покрытием (MTP-B146G-3AV). Дизайн новинок вдохновлен эстетикой 1980-х годов, а сами часы ориентированы исключительно на отображение времени и не имеют смарт-функций.

17.07 / 17:02

театр общество шутеры трейлеры Исторический шутер Gallipoli в сеттинге Первой мировой войны получил геймплейный трейлер и новую дату релиза

Студия BlackMill Games активно развивает собственную уникальную серию исторических шутеров от первого лица WW1 Game Series, каждый из которых посвящен одному из фронтов “великой войны”.

Лента новостей

На главную страницу