

Не опять, а снова: в МФТИ разработали «прозрачный» детектор ИИ-текстов
Буквально вслед за американцами, команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет.
Авторы метода отмечают, что существующие системы детекции сгенерированного текста часто работают как «черные ящики» и не могут объяснить, на каких конкретно свойствах текста основано их решение. В результате, если детектор ошибается, то бывает очень сложно понять, почему именно это случилось и как избежать такой ошибки в будущем.
Чтобы не изобретать велосипед, исследователи решили заглянуть «под капот» нейросети и превратить ее внутренние состояния в набор четких и интерпретируемых характеристик текста. Для этого они использовали известную технику — разреженные автокодировщики (Sparse Autoencoders, SAE), позволяющие выделять признаки, отвечающие за определенный аспект текста: например, за сложность предложений или использование специфической лексики.
Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и “водянистым” вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности, - объяснила Лаида Кушнарева, старший академический консультант в компании Huawei.
По ее словам, разработанный детектор на
Читать на habr.com