

Исследование: LLM не могут справиться с подсчётом букв «r» в слове «strawberry»
Исследователи выяснили, что большие языковые модели, такие как GPT-4o и Claude, не могут правильно подсчитать число букв «r» в слове «strawberry». Они выдают ответ, что эта буква встречается в слове дважды, а не трижды.
Большинство LLM построены на архитектуре трансформатора, который разбивает текст на токены в виде слов, слогов или букв. Как объясняет доцент Университета Альберты Мэтью Гуздиал, «LLM… на самом деле не читает текст. Когда вы вводите подсказку, она переводится в кодировку. Когда модель видит слово “the”, то получает его кодировку, при этом не понимая, что такое “T”, “H”, “E”». Затем числовые представления текста контекстуализируются, чтобы помочь ИИ выдать логический ответ.
Другими словами, ИИ понимает, что есть токены «straw» и «berry», которые вместе составляют «strawberry», но модель не знает, что это слово состоит из букв «s», «t», «r», «a», «w», «b», «e», «r», «r» и «y», и они располагаются именно в таком порядке.
Эту проблему нелегко исправить, поскольку она кроется в устройстве архитектуры моделей.
«Довольно сложно обойти вопрос о том, каким именно должно быть “слово” для языковой модели. Даже если бы мы заставили экспертов-людей договориться об идеальном словаре токенов, модели, вероятно, всё равно сочли бы полезным “разбивать” их», — сказал аспирант Северо-Восточного университета Шеридан Фойхт.
Проблема нарастает по мере того, как LLM изучает больше языков. Например, некоторые методы токенизации могут предполагать, что пробел в предложении всегда будет предшествовать новому слову, но в таких языках, как китайский, японский, тайский, лаосский, корейский, кхмерский и другие, пробелы для разделения слов не используются. Исследователь ИИ Google DeepMind Йенни Джун обнаружила в 2023 году, что некоторым
Читать на habr.com