Об этом же в других СМИ

habr.com / 1 год назад

ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты

gagadget.com / 1 год назад

Титановый корпус, двойная камера и никакого Face ID: инсайдер поделился интересной информацией о первой складной модели iPhone

gagadget.com / 1 год назад

Три новые модели Casio G-Shock появились в сети: MTG-B4000, GM-B2100SD-1C и GM-5600RH

habr.com / 1 год назад

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

habr.com / 1 год назад

Возможное ограничение использования новой языковой модели OpenAI GPT-4.5 через API

Больше по теме

19.02.2025 - 18:28 / habr.com

Модели AI на «экзамене» по решению головоломок: исследование выявило неожиданные результаты

Каждое воскресенье ведущий NPR Уилл Шортц, гуру кроссвордов из The New York Times, проводит викторину для тысяч слушателей в рамках долгоиграющего сегмента под названием «Воскресная головоломка». Несмотря на то, что головоломки составлены так, чтобы их можно было решить, не слишком полагаясь на знания, они обычно сложны даже для опытных участников.

Вот почему некоторые эксперты считают, что это многообещающий способ проверить границы возможностей AI в решении задач.

В недавнем исследовании команда учёных из Колледжа Уэллсли, Оберлинского колледжа, Техасского университета в Остине, Северо-Восточного университета, Карлова университета и стартапа Cursor создала тест для AI, используя загадки из выпусков «Воскресной головоломки». Команда говорит, что их тест выявил неожиданные факты, например, что модели рассуждений — в том числе o1 от OpenAI — иногда «сдаются» и дают ответы, которые, как они знают, неверны.

«Мы хотели разработать эталонный тест с задачами, которые люди могут понять, обладая лишь общими знаниями», — рассказал TechCrunch Арджун Гуха, преподаватель компьютерных наук в Северо-Восточном университете и один из соавторов исследования.

В настоящее время индустрия AI находится в затруднительном положении, связанном с тестированием. Большинство тестов, которые обычно используются для оценки моделей AI, проверяют такие навыки, как компетентность в вопросах по математике и естественным наукам на уровне доктора наук, которые не имеют отношения к среднестатистическому пользователю. В то же время многие тесты — даже тесты, выпущенные относительно недавно — быстро приближаются к точке насыщения.

Преимущества викторины на общественном радио, такой как «Воскресная головоломка», заключаются в том, что она не требует глубоких

люди экономика общество стартап ГУР mefdayy New York

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Глава Nvidia: новые модели «рассуждений» многократно увеличат спрос на ИИ-чипы incrypted.com / 1 год назад

Как эффективно обучать крупные модели ИИ: руководство Hugging Face с открытым исходным кодом habr.com / 1 год назад

Kia представила Concept EV2 — предвестника серийной модели стоимостью 30 000 евро gagadget.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

18.07 / 10:52

продукты технологии происшествия самит steam Для Valve не важны продажи Steam Machine, а Half-Life 3 никогда не планировалась, как ее эксклюзив — Джейсон Шрайер о 14-летнем пути к консоли

Новая консоль Steam Machine является довольно нишевым продуктом (в первую очередь, из-за высокой цены), однако для игровой индустрии это невероятно важное устройство, которое аналитики считают потенциальной главной угрозой PlayStation и Xbox.

18.07 / 10:39

google Nano gemini Google добавила генерацию изображений в AI Overviews и полностью переосмыслила Google Images к 25-летию

В честь 25-летия Google Images компания представила два крупных обновления: генерацию картинок прямо в поисковых сводках AI Overviews и полный редизайн домашней страницы поиска по изображениям.

18.07 / 10:36

космос прогноз мозг Земля Сколько еще проживет Земля: ученые пересмотрели прогноз

Ученые оценили, как долго Земля сможет оставаться пригодной для существования растительного мира.

18.07 / 10:21

технологии происшествия история общество роботы Профсоюз против терминаторов: рабочие Hyundai бастуют из-за гуманоидов Atlas

Пока футурологи рисуют картинки безмятежного будущего с робокафе и автоматизированным бытом, реальный сектор столкнулся с суровой реальностью. В Южной Корее рабочие заводов Hyundai Motor Group решили, что 1.9-метровый гуманоид Atlas — это не «технологический прорыв», а прямая угроза их кошелькам и стабильности. Впервые в истории мирового автопрома причиной масштабной забастовки стало не только вопрос зарплат, но и физическое присутствие гуманоидных машин на конвейере.

18.07 / 10:21

технологии Xiaomi общество Xiaomi представила уличную камеру видеонаблюдения Smart Solar Camera 4 Pro с поддержкой 4G и солнечной панелью

Ассортимент умных устройств от Xiaomi пополнился автономной IP-камерой Smart Solar Camera 4 Pro 4G Dual-Camera Edition. Главные особенности новинки — полная независимость от электросети и возможность работы через мобильные сети.

18.07 / 10:21

iPhone технологии Apple Японии “повезло” — она стала первой страной, где подорожали iPhone

Apple продолжает планомерное повышение цен на свою продукцию. В июне компания объявила о подорожании ряда моделей MacBook, iPad, мега-дорогой гарнитуры Vision Pro, HomePod и ряда других гаджетов. iPhone тогда не подорожали, но представители Apple предупредили, что скоро очередь дойдет и до них.

18.07 / 10:12

бизнес Apple общество прогноз финансирование Reuters: Stripe и Advent предлагают купить PayPal за $53 млрд

Платёжная компания Stripe и частная инвестиционная фирма Advent International сделали совместное предложение о покупке PayPal Holdings по цене $60,50 за акцию. Общая сумма сделки, таким образом, составит около $53 млрд. Предложение подкреплено $50 млрд гарантированного банковского финансирования, сообщает Reuters.

18.07 / 10:12

технологии здоровье дети общество 18+ Правительство Великобритании ввело комендантский час на соцсети для подростков

Британское правительство запретило подросткам 16–17 лет пользоваться соцсетями с полуночи до шести утра; мера должна вступить в силу к весне 2027 года. Кроме того, власти запретили вызывающие привыкание функции. В первую очередь речь идёт об автоматическом воспроизведении видео (Reels, короткие ролики в TikTok и подобных сервисах) и о бесконечных персонализированных лентах, где алгоритмы постоянно подбирают контент.

18.07 / 10:11

общество финансирование капитал стартап крипто Follow the Money: венчурный фонд на $1,5 млрд, вливание $400 млн в Crypto.com и возвращение Strategy

В период с 11 по 18 июля 2026 года редакция Incrypted зафиксировала 22 инвестиционных сделки, включая венчурные раунды, корпоративные размещения и другое. Из них по 16 известны подробности. Общая сумма привлеченного капитала по ним составила $3,49 млрд. Венчурные сделки

18.07 / 10:11

курс капитал google BlackRock ETF Ethereum-ETF опередили фонды на базе биткоина по притоку капитала за неделю

В период с 13 по 17 июля 2026 года сектор спотовых биткоин-ETF в США завершил неделю с чистым притоком $75,67 млн, несмотря на значительный отток в первый торговый день. По данным SoSoValue, негативный результат понедельника был полностью компенсирован четырьмя последующими сессиями с положительными потоками. Наибольший приток капитала зафиксировал фонд IBIT от BlackRock, который привлек $204,15 млн. В то же время отток наблюдался у двух крупнейших конкурентов: FBTC — $181,07 млн; GBTC — $53,06 млн. Фонды BRRR, EZBC, BTCO, BTCW и DEFI завершили

Лента новостей

На главную страницу