Робопес-поводырь на GPT-4 правильно понимает открытые запросы в 94,8% случаев — и устойчив к шуму распознавания речи
Исследователи из State University of New York at Binghamton собрали первого робота-поводыря, который не просто ведет незрячего человека мимо препятствий, а разговаривает с ним через GPT-4: объясняет варианты маршрута до выхода, комментирует окружение по дороге и сам разбирает открытые запросы вроде "хочу пить". В симуляции на 77 парах задач система правильно определяла цель в 94,8% случаев и обходилась меньшим числом реплик, чем базовая система с поиском по ключевым словам. Работа «From Woofs to Words» (буквально «От лая к словам») была представлена на 40-й конференции AAAI в Сингапуре и описана в пресс-релизе университета. Среди десяти авторов — Йохэй Хаямидзу, Дэвид Дефацио и ещё восемь коллег под руководством Шици Чжана из Thomas J. Watson College of Engineering and Applied Science.
Главная проблема живой собаки-поводыря — узкий канал коммуникации. "Собака в лучшем случае понимает около 20 команд. А в случае робота можно просто подключить GPT-4 с голосовым управлением — и получить очень сильные языковые возможности", — объясняет Чжан. Система делает две вещи, которых у биологических поводырей не бывает в принципе. Первая — plan verbalization: перед выходом робот вслух перечисляет варианты маршрута до переговорной или кофейни, называет время в пути и уточняет, где придется открывать двери, а человек выбирает. Вторая — scene verbalization: во время движения робот комментирует окружающее пространство ("длинный коридор", "впереди дверь"), чтобы восполнить отсутствующий визуальный контекст. LLM отвечает за диалог и разбор открытых формулировок, а связанный с ней планировщик превращает намерение в конкретную последовательность действий — подойти, открыть дверь, повернуть.
Для полевого теста команда пригласила семь незрячих
Читать на habr.com
