AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи
Исследователи из Китайского университета Гонконга в Шэньчжэне, а также представители компаний Qwen от Alibaba и Шэньчжэньского научно-исследовательского института больших данных провели исследование и выявили интересную особенность в работе модели o1-mini от OpenAI. В то время как большинство систем искусственного интеллекта ухудшают свои результаты при попытке исправить собственные ошибки, o1-mini обычно улучшает свою производительность.
В ходе решения математических задач на уровне колледжа o1-mini были отмечены значительные улучшения. В частности, показатель самокритики вырос на 24%, а выполнение заданий ARC стало эффективнее на 19,4%. Исследователи протестировали его в сравнении с некоторыми другими LLM, такими как GPT-4o, модели Qwen2.5, Mistral Large и Llama 3.1, но не включили более крупную модель o1, o1-Pro или какие-либо модели Claude.
Специалисты разработали инновационный подход к тестированию, который получил название RealCritic. Этот метод не только позволяет оценить способность AI выявлять ошибки, но и обеспечивает возможность их исправления. Процесс тестирования представляет собой цикл обратной связи: AI получает задачу и решение, анализирует их, а затем должен предложить более эффективное решение. Критика учитывается только в том случае, если новый ответ действительно лучше исходного.
Это отличается от более ранних тестов, которые просто проверяли, может ли AI указывать на ошибки, не доказывая, что он может их исправлять. По словам исследователей, «признавая, что критика является качественной, если она вносит значимый вклад в самосовершенствование больших языковых моделей, мы предлагаем оценивать качество критики непосредственно по исправлениям, которые она позволяет вносить».
В исследовании рассматривались
Читать на habr.com
