Карпати написал ИИ-агента, который ускорил обучение GPT-2 на 11%
Андрей Карпати, бывший директор по ИИ в Tesla и сооснователь OpenAI, представил autoresearch — открытый инструмент, в котором ИИ-агент самостоятельно оптимизирует обучение нейросетей. За два дня автономной работы агент провел около 700 экспериментов с кодом проекта nanochat и нашел примерно 20 изменений, которые реально улучшили качество модели. В результате время обучения до уровня GPT-2 на таблице лидеров проекта сократилось с 2,02 до 1,80 часа.
Агент работал по полному исследовательскому циклу: читал код, формулировал гипотезу, вносил правки, запускал эксперимент и оценивал результат — без участия человека. Среди находок — забытый множитель в нормализации внимания, из-за которого внимание было слишком размытым, отсутствие регуляризации для Value Embeddings, слишком консервативные настройки полосового внимания (banded attention) и некорректные параметры оптимизатора AdamW. Все улучшения оказались аддитивными и перенеслись с маленькой модели (depth=12) на более крупную (depth=24).
Карпати подчеркнул, что занимается ручной оптимизацией нейросетей уже 20 лет, и впервые увидел, как агент проделал весь этот цикл полностью автономно. "Выглядит невероятно", — написал он, отметив, что пока речь идет не о прорывных открытиях, а о реальных, рабочих улучшениях поверх тщательно настроенного проекта. Код autoresearch открыт под лицензией MIT и состоит всего из трех ключевых файлов: скрипта подготовки данных, скрипта обучения и markdown-файла с инструкциями для агента.
По мнению Карпати, все крупные ИИ-лаборатории придут к этому подходу: рой агентов оптимизирует маленькие модели, лучшие находки масштабируются на крупные, а люди подключаются только в исключительных случаях. Он уже запустил второй раунд autoresearch и параллельно
Читать на habr.com