Учёные с помощью ИИ прочли зачеркнутые слова в рукописях Пушкина
Специалисты Института русского языка РАН и отдела «Зрительные системы» ФИЦ ИУ РАН разработали метод, позволяющий прочесть слова, которые Александр Пушкин зачеркнул в своих записях. Это позволяет убедиться, действительно ли тексты в сборниках соответствуют задумке поэта, а также даёт возможность проследить ход его творческой мысли.
В интервью для RTVI Дмитрий Николаев, завотделом «Зрительные системы» ФИЦ ИУ РАН, рассказал, что сначала специалисты обучили одну нейросеть «зачеркивать» слова так же, как это делал сам Пушкин, а далее следующая нейросеть на этой основе училась зачеркивание снимать. Корпусом текстов для обучения выступили «Болдинские рукописи» — рукописные черновики поэта, в которых он работал над разными произведениями.
«На первом этапе мы использовали так называемую генеративно-состязательную сеть, представляющую собой комплекс из двух нейросетей, одна из которых синтезирует тот или иной образ — в данном случае зачеркнутое слово из рукописи, а вторая пытается отличить сгенерированный образ от реального. Иными словами, задача первой сети — генерировать зачеркивания на основе исходного набора реальных изображений, а задача второй — различить, сгенерировано ли полученное зачеркивание нейросетью или же поступило из подлинника. Фактически эти сети соревнуются между собой. И если вторая сеть работает достаточно эффективно, первая — генерирующая — со временем учится создавать весьма правдоподобные изображения. Настолько убедительные, что вторая сеть не справляется с задачей отличения. В этом и состоит основной принцип GAN.
Безусловно, такой подход сопряжен с определенными рисками — задача ставится чрезвычайно общо, итоговый результат непредсказуем и в целом неясно, какие именно признаки удается воспроизвести первой
Читать на habr.com