Об этом же в других СМИ

itc.ua / 1 год назад

Против кого дружим? Модели ИИ способны объединяться в группы и согласовывать общее мнение

gagadget.com / 1 год назад

Toyota переименовала электрический кроссовер bZ4X для Америки, добавила запас хода и обновила дизайн для модели 2026 года

gagadget.com / 1 год назад

NextSpace TestRig: первый в мире 3D-принтер для печати в открытом космосе

ilenta.com / 1 год назад

Casio выпустила четыре новые гибридные модели часов G-Shock

gagadget.com / 1 год назад

Xiaomi представила две модели QLED-телевизоров FX Pro 2025 с 4K разрешением и доступной ценой

Больше по теме

29.04.2025 - 22:05 / habr.com

Языковые модели ИИ тестируют на способность рассуждать в игре «Phoenix Wright: Ace Attorney»

Исследователи подвергли ведущие модели ИИ новому виду тестирования, которое показывает, насколько хорошо они могут рассуждать, чтобы одержать победу в суде. Результаты выявили некоторые явные различия как в производительности, так и в стоимости.

Команда из лаборатории искусственного интеллекта Hao в Калифорнийском университете в Сан-Диего оценила современные языковые модели с помощью игры «Phoenix Wright: Ace Attorney», в которой игрокам нужно собирать улики, выявлять противоречия и раскрывать правду, скрывающуюся за ложью.

По мнению Hao AI Lab, игра Ace Attorney особенно хорошо подходит для этого теста, потому что она требует от игроков собирать доказательства, выявлять противоречия и находить правду за ложью. Моделям пришлось анализировать длинные диалоги, выявлять несоответствия во время допроса и выбирать подходящие доказательства, чтобы оспорить показания свидетелей.

Эксперимент был отчасти вдохновлён соучредителем OpenAI Ильёй Суцкевером, который однажды сравнил предсказание следующего слова с пониманием детективной истории. Недавно Суцкевер получил дополнительное финансирование в размере нескольких миллиардов евро для нового проекта в области ИИ.

Исследователи протестировали несколько лучших мультимодальных моделей и моделей логического мышления, в том числе OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking и Llama 4 Maverick. И o1, и Gemini 2.5 Pro достигли 4-го уровня, но o1 показал лучшие результаты в самых сложных случаях.

Тест выходит за рамки простого анализа текста или изображений. Как объясняет команда, моделям приходится анализировать длинные контексты и выявлять в них противоречия, точно понимать визуальную информацию и принимать стратегические решения в ходе игры.

«Игровой дизайн выводит ИИ за рамки чисто

закон история евро самит доллар финансирование gemini mefdayy Сан-Диего

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Большие языковые модели в медицине: результаты исследования Оксфорда habr.com / 1 год назад

Новая небольшая модель искусственного интеллекта Ai2 превосходит аналогичные по размеру модели от Google и Meta* habr.com / 1 год назад

Microsoft выпустила Phi-4 — семейство компактных рассуждающих языковых моделей с открытым исходным кодом habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 04:55

технологии происшествия смартфон Эксперт Как продлить жизнь аккумулятору смартфона – три совета

Хотя большинство производителей заявляют о ресурсе в 1000 циклов зарядки, реальный срок службы аккумулятора напрямую зависит от условий эксплуатации.

15.07 / 04:55

происшествия недвижимость ограбление квартира Роковая ошибка владельцев жилья, которая привлекает грабителей

Американский аналитик успешно протестировал опасный метод взлома на собственной двери. Напечатанный из пластика прототип сработал с первой попытки.

15.07 / 04:31

животные МИД природа пляж мозг Жизнь на морской воде: существо, которому не нужен мозг

У этих удивительных существ полностью отсутствуют мозг и кровеносная система. Все жизненные процессы у них поддерживает обычная морская вода.

15.07 / 03:57

технологии общество Опубликовано полное видео полёта ракеты CZ-10B (Long March 10B) и возврата первой ступени на морскую платформу

Опубликовано полное видео полёта китайской ракеты‑носителя CZ-10B (Long March 10B — «Великий Поход 10Б») от старта до посадки, включая возврат первой ступени на морскую платформу с помощью технологии улавливания «сетевой захват».

15.07 / 03:17

общество рубль В России запускают производство печатных плат для принтеров

В России начнётся производство печатных плат для принтеров. К осени 2026 года контрактный производитель электроники «Цифровые телевизионные системы» (ЦТС, входит в GS Group) поставит 50 тысяч российских высоковольтных плат и плат питания для производителя печатной техники «Катюша». Это будет первая партия после запуска производства. Об этом сообщило издание «Ведомости» со ссылкой на коммерческого директора ЦТС Егора Макеева и управляющего директора ГК «Катюша» Дмитрия Владимирова.

15.07 / 03:17

общество крипто токен Релиз пакетного менеджера NPM 12.0, в новой версии по умолчанию прекращён запуск скриптов во время установки пакетов

8 июля 2026 года состоялся выпуск пакетного менеджера NPM 12.0. Это решение входит в поставку Node.js и применяется для распространения модулей на языке JavaScript. Новая версия проекта примечательна прекращением по умолчанию запуска скриптов во время установки пакетов. Это изменение должно усложнить проведение атак через компрометацию зависимостей и замедлить распространение червей, активируемых из установочных скриптов.

15.07 / 02:27

продукты здоровье Здоровье и красота питание кулинария Ужин, который остановит старение, назвали эксперты

Полезный ужин может быть еще и очень вкусным, говорят специалисты и рассказывают, что нужно есть для молодости и хорошего самочувствия.

15.07 / 01:22

люди ученые наука история общество Археологи обнаружили пещеру с доисторическими рисунками (ФОТО)

Международная группа исследователей совершила крупное открытие на востоке страны. На стенах скрытого грота ученые нашли около сотни древних фигур.

15.07 / 00:31

медицина люди общество лечение медики Война с прыщами: 5 ошибок, которые навсегда испортят вашу кожу

Специалист объяснила, почему попытки пересушить кожу агрессивными средствами приводят к обратному эффекту и вызывают тяжелые воспаления.

14.07 / 23:23

общество семья отдых человек врачи Привычки, которые незаметно разрушают сердце, назвали врачи

Обычные действия, которые многие считают безобидными, способны со временем серьезно навредить сердцу.

Лента новостей

На главную страницу