LLM-агент уничтожает анонимность в интернете: почему переписать текст другим стилем не поможет
Исследователи из ETH Zurich и Google DeepMind показали, что LLM-агент может массово деанонимизировать пользователей по их анонимным постам. Не через стилометрию (то есть стиль письма), не через утёкшие базы, а через семантику - то, о чём ты пишешь.
Пайплайн называется ESRC и состоит из четырех этапов:
Extract. LLM читает все комментарии пользователя и извлекает полуструктурированную сводку: город, профессия, интересы, упомянутые конференции, проекты, хобби. Никакого анализа стиля письма - чистая семантика. Ты написал что был на рыбалке в Питере, работаешь с компьютерным зрением и держишь аквариум - это уже три сигнала, которые llm запомнит.
Search. Сводки превращаются в эмбеддинги. По косинусной близости находятся top-100 кандидатов из базы (LinkedIn, HH и любая другая платформа с вашими данными).
Reason. LLM получает анонимизированный профиль и профили кандидатов, логически выбирает наиболее вероятное совпадение. Тут уже рассуждение - "этот человек упоминает NLP и живет в Москве, а вот у этого кандидата в резюме написано..."
Calibrate. Попарные LLM-сравнения финальных кандидатов, чтобы снизить false positive rate.
Каждый из этих шагов по отдельности выглядит абсолютно легитимно. Суммаризация профиля? Нормальная задача. Построение эмбеддингов? Пожалуйста, все этим занимаются. Сравнение двух текстов? Ничего подозрительного. Это делает детектирование злоупотреблений на стороне LLM-провайдера практически невозможным.
Эксперимент 1: HN → LinkedIn. Взяли аккаунты Hacker News, у которых в профиле стоит ссылка на LinkedIn. Потом прогнали HN-профили через LLM, убрав все напрямую идентифицирующие данные - имена, ссылки, всё явное. Задача: по анонимизированным комментариям найти правильный LinkedIn. Результат - 68% recall при 90%
Читать на habr.com