

ДВФУ создаст цифровой корпус русского языка для обучения машин и нейросетей
Последний проект станет одним из ранних продуктов. Синтетическая личность способна поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. Подобной разработке найдётся применение в call-центрах, система обучения языкам, переводчиках, различных экспертных системах и системах управления сложными машинными механизмами.
Мы уже начали разработку синтетической личности в партнёрстве со «Сбербанком», что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей, — сообщили News.ru в департаменте внешних коммуникаций Дальневосточного федерального университета.
Решить вопрос ШЦЭ ДВФУ поможет партнёр по машинному обучению, компания «Нейросети Ашманова», которая предоставит технологию цифровой разметки материала. Результаты совместной работы будут поэтапно передаваться для открытого использования всем заинтересованным сторонам.
Специалисты фактически подготовят академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Главной задачей станет сбор аудио-корпуса, который будет происходить через сайт и мобильное приложение, и размещение его специальным образом, понятным машине.
На первом этапе к работе будут привлечены волонтёры из числа студентов университета, после чего к проекту подключатся профессиональные лингвисты и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала.
Проект реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы «Искусственный интеллект и большие данные». Электронный сбор заявок на участие в первом этапе работы будет открыт в сентябре.
Ранее News.ru рассказал, что власти Вирджинии официально расширили закон против так называемой порномести. Поправка, вступившая в силу 1 июля, добавляет к реальным обнажённым изображениям и видео контент, в том числе созданный при помощи нейросетей.
Источник Читать на news.ru
