

Исследование Anthropic: ИИ умеет планировать и сознательно врать
Учёные из Anthropic опубликовали исследование, которое рассказывает, как ИИ-системы обрабатывают информацию и принимают решения. Работа показала, что искусственный интеллект оказался сложнее, чем предполагалось: он способен осознанно обманывать, планировать свои следующие реплики и использовать унифицированные подходы к интерпретации понятий вне зависимости от языка.
В исследовании использовались новые методы расшифровки логики ИИ, которые в Anthropic назвали «трассировкой цепей» и «графами атрибуции». Они позволяют отслеживать конкретные пути активации нейроноподобных функций, когда модель выполняет задачи.
Одним из самых удивительных открытий стало понимание механизмов планирования ИИ Claude, которые он продемонстрировал при сочинении стихов. Когда чат-бота попросили написать рифмованное двустишие, он сначала выбирал рифмующиеся слова для завершения следующей строки и только потом начинал писать саму строку. Например, если двустишие заканчивалось словом «кролик», модель сначала определяла ключевые признаки этого слова, а затем сочиняла предложение, которое логично к нему подводит.
Claude продемонстрировал также способность к логическим рассуждениям. В тесте с вопросом «Столица штата, где находится город Даллас» модель сначала определяет признаки, соответствующие понятию «Техас», а затем использует их, выбирая «Остин» как правильный ответ. По словам исследователей, это значит, что модель действительно выполняет цепочку рассуждений, а не просто воспроизводит запомненные ассоциации.
Исследователи также объяснили, как ИИ обрабатывает информацию на разных языках. Вместо использования отдельных систем для английского, французского и китайского языков, ИИ преобразует понятия в единое абстрактное представление, а затем
Читать на habr.com