Учёные НГУ проанализировали ошибки, полученные открытой системой «Писец» в «Тотальном диктанте»
Стали известны результаты, полученные открытой системой «Писец» на ежегодном «Тотальном диктанте», который прошёл 20 апреля. Систему разработал научный сотрудник Лаборатории прикладных цифровых технологий Международного научно‑образовательного математического центра НГУ и сооснователь стартапа «Сибирские нейросети» Иван Бондаренко.
Искусственный интеллект впервые соревновался в грамотности с людьми в рамках диктанта, и создатель «Писца» полагал, что положительной оценки тот не получит. Бондаренко думал, что система допустит минимум орфографических ошибок, однако с расстановкой знаков препинания вряд ли справится.
Разработчикам «Писца» было важно собрать статистику о разнообразии совершаемых им ошибок и неточностей, чтобы в дальнейшем усовершенствовать систему. Результаты оказались неожиданными, но закономерными — «Писец» вполне удовлетворительно расставил запятые и разбил текст на абзацы.
Для этого его специально научили улавливать в речи «кодовые фразы» вроде «пишем с красной строки» или «переходим на новый абзац». Для этого использовали отдельную нейросеть, обученную на базе Longformer выделять такие «внесюжетные» вставки наподобие системы NER (Named Entity Recognition — распознавание именованных сущностей). Для обучения использовали синтетический текстовый корпус. Сам же «Писец» использовал в своей работе связку Wav2Vec2-Large‑Ru‑Golos + Whisper‑Podlodka. Однако галлюцинаций избежать не удалось.
Галлюцинация — это ответ авторегрессионной нейросетевой модели языка, который корректен грамматически, но неверен семантически (не соответствует входному запросу по смыслу).
«„Писцу“ вполне можно было бы поставить твердую „тройку“, если бы не несколько обстоятельств. Из 276 слов диктанта он пропустил шесть, пять из которых стояли
Читать на habr.com
