Генеральный директор Anthropic хочет «открыть черный ящик» моделей AI к 2027 году
Генеральный директор Anthropic Дарио Амодеи опубликовал в четверг статью, в которой подчеркивается, как мало исследователи понимают внутреннюю работу ведущих в мире моделей AI. Чтобы решить эту проблему, Амодеи поставил перед Anthropic амбициозную цель — надежно обнаруживать большинство проблем моделей AI к 2027 году.
Амодей осознает предстоящую задачу. В статье «The Urgency of Interpretability» генеральный директор говорит, что Anthropic совершила первые прорывы в отслеживании того, как модели приходят к своим ответам, — но подчеркивает, что для расшифровки этих систем, которые становятся все более мощными, необходимо гораздо больше исследований.
«Я очень обеспокоен развертыванием таких систем без лучшего управления интерпретируемостью», — написал Амодей в своем эссе.
«Эти системы будут абсолютно центральными для экономики, технологий и национальной безопасности и будут способны на такую большую автономность, что я считаю в принципе неприемлемым для человечества полностью игнорировать то, как они работают».
Anthropic — одна из пионеров в области механистической интерпретируемости, области, которая стремится открыть черный ящик моделей AI и понять, почему они принимают те или иные решения. Несмотря на быстрое улучшение производительности моделей AI в технологической отрасли, мы все еще имеем относительно мало представления о том, как эти системы принимают решения.
Например, OpenAI недавно запустила новые модели рассуждений AI, o3 и o4-mini, которые лучше справляются с некоторыми задачами, но и галлюцинируют больше, чем другие модели. Компания не знает, почему это происходит.
«Когда генеративная система AI что-то делает, например, резюмирует финансовый документ, мы не имеем ни малейшего представления на конкретном или
Читать на habr.com