
«AI-микроскоп» от Anthropic показывает, как Claude обрабатывает информацию и рассуждает
Новый «AI-микроскоп» компании Anthropic предлагает ограниченный взгляд на внутренние представления ее языковой модели Claude 3.5 Haiku, показывая, как она обрабатывает информацию и рассуждает в ходе выполнения сложных задач.
Одним из ключевых выводов, по данным Anthropic, является то, что Клод, по-видимому, использует своего рода независимую от языка внутреннюю репрезентацию — то, что исследователи называют «универсальным языком мышления». Например, когда модель просят сгенерировать противоположность слову «маленький» на нескольких языках, она сначала активирует общую концепцию, прежде чем выводить переведенный ответ на целевом языке.
Anthropic сообщает, что более крупные модели, такие как Claude 3.5, демонстрируют большее концептуальное совпадение между языками, чем более мелкие модели. По мнению исследователей, это абстрактное представление может поддерживать более последовательное многоязычное рассуждение.
В ходе исследования также изучались ответы Клода на вопросы, требующие многоэтапного рассуждения, например: «Какова столица штата, в котором расположен Даллас?» По данным Anthropic, модель активирует представления для «Даллас находится в Техасе», а затем связывает это со «столицей Техаса является Остин». Эта последовательность указывает на то, что Клод не просто вспоминает факты, а выполняет многоэтапный вывод.
Исследователи также обнаружили, что Клод планирует несколько слов заранее при создании поэзии. Вместо того, чтобы сочинять строку за строкой, он начинает с выбора соответствующих рифмующихся слов, а затем выстраивает каждую строку так, чтобы она вела к этим целям. Если целевые слова изменены, модель создает совершенно другое стихотворение — показатель преднамеренного планирования, а не простого пословного
Читать на habr.com