
Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение
Недавний анализ, проведенный фондом Arc Prize Foundation показал, что модель o3 от OpenAI демонстрирует значительно более слабые результаты на стандартизированных тестах рассуждений, чем ранее протестированная предварительная версия o3.
ARC Prize Foundation, некоммерческая группа, занимающаяся оценкой AI, использует открытые бенчмарки, такие как ARC-AGI, чтобы подчеркнуть разрыв между человеческим мышлением и текущими системами искусственного интеллекта. Каждая оценка направлена на выяснение текущего состояния области.
Тест ARC-AGI предназначен для проверки символического мышления, многошаговой композиции и применения правил в зависимости от контекста — навыков, которые люди часто демонстрируют без специальной подготовки, но которые модели AI выполняют лишь в ограниченной степени.
Анализ оценивал производительность на «низком», «среднем» и «высоком» уровнях рассуждений, которые варьируют глубину рассуждений модели. «Низкий» приоритет отдает скорости и минимальному использованию токенов, в то время как «высокий» призван поощрять более комплексное решение проблем. Для этого исследования две модели — o3 и o4-mini — были протестированы на всех трех уровнях рассуждений на 740 задачах из ARC-AGI-1 и ARC-AGI-2, что дало 4400 точек данных.
По данным ARC Prize Foundation, o3 достигла точности 41% (низкая вычислительная мощность) и 53% (средняя вычислительная мощность) на ARC-AGI-1. Меньшая модель o4-mini достигла 21% (низкая вычислительная мощность) и 42% (средняя вычислительная мощность). На более сложном тесте ARC-AGI-2 обе текущие модели значительно отстали, набрав менее трех процентов точности.
На более высоких уровнях рассуждений («высокий» вычислительный уровень) обе модели не смогли выполнить многие задачи. Анализ также
Читать на habr.com
