


Учёные НГУ создали метод распознавания плагиата на четырёх языках
Учёные Новосибирского государственного университета (НГУ) разработали метод определения авторского стиля на основе математической статистики. Разработка одинаково эффективна для четырёх языков. Метод может найти применение в оценке качества переводов и решении вопросов заимствований и плагиата, в том числе текстов, созданных нейросетями. Результаты исследования опубликованы в октябре 2025 года в журнале Entropy.
Профессор факультета информационных технологий НГУ Борис Рябко вместе с коллегами и учениками разработал количественный метод определения авторского стиля. Метод основан на использовании аппарата математической статистики. Это позволяет определять достоверность полученных выводов.
Исследователи подобрали минимальный объём текста в килобайтах для определения авторского стиля сразу четырёх языков: русского, английского, китайского и используемого в Эфиопии амхарского языка. Борис Рябко отметил, что эти языки относятся к очень далёким друг от друга языковым группам. Даже сам вопрос о сравнении длины текста не так прост для них. Например, буквы в русском языке не сопоставимы с иероглифами в китайском. Каждый иероглиф может переводиться на русский язык целым словом, а иногда и предложением. В рассматриваемой работе для всех языков объём текста оценивался в килобайтах, то есть в одних и тех же единицах.
Ранее описанный метод применялся для определения авторства литературных произведений. В некоторых случаях авторы произведений неизвестны или авторство сомнительно, как, например, у произведений Шекспира. Теперь метод может найти практическое применение для оценивания качества различных переводов и квалификации переводчиков, в том числе компьютерных.
Борис Рябко пояснил, что качество перевода может существенно влиять
Читать на habr.com