Новый инструмент Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов
Microsoft представила ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, адаптивная оценка на основе спецификаций для оценочного и регрессионного тестирования). Эта открытая платформа упрощает оценку поведения ИИ в конкретных приложениях, используя технологию для преобразования высокоуровневых описаний целей, политик или предполагаемого поведения на естественном языке в оцениваемые тесты, которые можно исследовать.
ASSERT берёт описания ожидаемого поведения и политик модели ИИ на простом языке, преобразует их в структурированный набор допустимых и недопустимых вариантов поведения, генерирует проблемные сценарии и тестовые примеры, запускает их на целевой системе и оценивает результаты. Он также может записывать пути, по которым движется система ИИ, включая промежуточные действия и вызовы инструментов, чтобы разработчики могли анализировать, где происходят сбои.
Разработчики также могут предоставлять контекст системы, инструменты и ограничения, если хотят дополнительно настроить то, что охватывают оценки.
Например, можно указать, что агент ИИ для поиска документов не должен отправлять электронные письма людям за пределами компании, предоставлять краткие резюме с учетом предыдущего контекста, а конфиденциальная информация должна быть доступна только руководителям высшего звена. ASSERT будет использовать эти правила для генерации тестовых случаев, которые проверяют, следует ли система им на постоянной основе. По словам представителей Microsoft, эта структура заполняет пробел, который не могут заполнить более широкие, общие оценки, когда модели ИИ должны вести себя в соответствии с контекстом, политиками и инструментами приложения или продукта.
«Оценки абсолютно необходимы для принятия правильных
Читать на habr.com