Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ
Сегодня в HuggingFace Daily papers ачивку "#3 daily paper" завоевала работа китайских исследователей из TigerLab. Мне она показалась настолько логичной и классной, что захотелось побольше рассказать об этой новости.
Итак, при классическом обучении моделей есть этап Supervised Fine-Tuning, на котором люди вручную подготавливают датасет с примерами качественных ответов для ИИ. Собственно, эти примеры используются для до-обучения модели.
Проблема в том, что подготовка таких датасетов — их разметка, проверка и прочие этапы — требует участия человека, а это самый дорогой и ресурсоемкий процесс в обучении искусственного интеллекта.
В последнее время мы наблюдаем, что модели, обучаемые без ручной разметки, оказываются дешевле и обучаются быстрее, при таком же уровне качества. Прекрасный пример — DeepSeek R1-Zero, который был обучен исключительно на синтетических данных с использованием механизмов Reinforcement Learning, и обошелся в 25 раз дешевле, чем модели с аналогичным качеством.
Исследователи использовали ИИ для создания коллекции пар "[задача] + [тесты для её проверки]". Эта работа не требует больших интеллектуальных способностей ИИ, для написания тестов подходят даже простенькие модели.
Скажем, тест может использовать "наивный" алгоритм с полным перебором, и при этом качественно проверять правильные ли ответы выдает "основной" код.
В частности, используемая авторами методика привела к росту на 10 процентных пунктов производительности модели Llama-3.1-8B-Ins и росту на 5 процентных пунктов Qwen2.5-Coder-7B-Ins, сравняв ее по качеству с гораздо более крупной DeepSeek-V2.5 (236B параметров).
Ещё раз: модель в 7 миллиардов параметров стала выдавать качество модели в 236 миллиардов, в 33 раза большей (справедливости ради, DeepSeek
Читать на habr.com
