Mistral AI показала Leanstral: кодинг, который можно не проверять
Французская Mistral AI представила Leanstral – открытого ИИ-агента, который не просто генерирует, а ещё и формально доказывает корректность своих же творений. Это помощник, который работает в связке с инструментом формального доказательства Lean 4. Его задача – помогать в “инженерии доказательств”, то есть строго проверять математические выкладки и программные спецификации.
В Mistral рассудили здраво: зачем нам просто “умная” нейросеть? Будущее – за агентами, которые умеют не только выполнять задачи, но и расписываться за каждую строчку, строго следуя спецификациям. Leanstral стал первым крупным шагом в этом направлении.
Leanstral построен на архитектуре состава экспертов (MoE), которую оптимизировали специально для задач доказательства. Секрет в том, что модель использует лишь часть своих параметров (активных – около 6 миллиардов), выбирая нужные экспертные модули для конкретной задачи. Это позволяет ей быть одновременно производительной и экономичной. Благодаря тому что Lean выступает в роли идеального верификатора, Leanstral может параллельно генерировать и проверять кучу вариантов решений.
Разработчики уже сравнили своего новичка с другими моделями. Для теста использовали бенчмарк FLTEval, который оценивает завершение формальных доказательств и корректное определение новых математических концепций.
Как видно на графике, даже самый мощный из открытых соперников, Qwen3.5 (397B-A17B), добрался до отметки 25,4 за 4 попытки. Leanstral же (притом что у него всего 120B параметров с учётом всех экспертов и 6B активных) за 2 попытки выдаёт 26,3, а за 4 попытки и вовсе улетает к 29,3.
Но самое интересное – это сравнение с коллегами из семейства Claude. Leanstral оказался не просто конкурентоспособным, а невероятно экономичным.
Читать на habr.com
