Преобразование текста с помощью анализа регистров: улучшение стилистической трансформации в ИИ
Исследователи из Мэрилендского университета разработали новый подход, который позволяет большим языковым моделям переписывать текст в определённом стиле, сохраняя при этом основной смысл. Их подход основан на «анализе регистров» — устоявшейся лингвистической концепции для анализа стилей письма — и, по-видимому, превосходит существующие методы, основанные на подсказках.
Системы искусственного интеллекта уже сейчас часто выполняют стилистическую трансформацию — преобразуют текст из одного стиля в другой, сохраняя основное содержание. Обычные задачи включают преобразование неформальных сообщений в официальные деловые письма или наоборот.
Современные методы переноса стиля, как правило, основаны на базовых инструкциях, таких как «сделайте это более вежливым», или на использовании ИИ для извлечения ключевых слов стиля, таких как «неформальный» или «серьёзный», из примеров текстов. По мнению исследователей, такие подходы часто приводят к тому, что языковые модели, такие как GPT или LLaMA, придумывают контент или полностью перестраивают тексты, создавая проблемы для конфиденциальных документов, таких как юридические или медицинские материалы.
В одном из своих исследований учёные столкнулись с ситуацией, когда их предыдущая система STYLL внесла изменения в текст, не предусмотренные автором. В частности, при переписывании информации о футболисте Верратти были добавлены фразы «легенда» и «хлеб и масло команды», которых не было в исходном тексте.
В новом подходе используется система анализа регистров Дугласа Бибера, которая оценивает конкретные лингвистические особенности, такие как частота употребления существительных, использование вспомогательных глаголов и уровень языковой абстракции. Команда разработала две стратегии подсказок:
Читать на habr.com