

Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур
Учёные из Института AIRI, НИУ ВШЭ и Constructor University разработали бенчмарк GeomMotif для проверки способности искусственного интеллекта правильно проектировать структуру белковых молекул. Как сообщили информационной службе Хабра в пресс‑службе AIRI, новый инструмент состоит из 57 задач и помогает определить, где именно модель допускает ошибки при работе с геометрией белков. Работа была представлена на конференции ICLR в Рио‑де‑Жанейро. Данные для бенчмаркинга, скрипты для построения задач и код для оценки доступны на GitHub и HuggingFace.
Одна из ключевых задач в дизайне белковых молекул заключается в том, чтобы достроить целый белок вокруг заранее заданного структурного фрагмента и при этом сохранить его точную трёхмерную форму. До сих пор у научного сообщества не было инструмента, который позволял бы отдельно проверять именно эту способность моделей. Главное отличие GeomMotif от существующих подходов состоит в том, что фрагменты выбираются не по биологической функции, а по геометрическим и физико‑химическим свойствам. Такой подход важен, поскольку геометрия является центральным звеном между последовательностью белка и его функцией. Ещё в 60-е годы 20-ого века учёный Анфинсен показал, что последовательность аминокислот определяет пространственную структуру белка, а структура определяет его функцию. В 1972 году он получил за это Нобелевскую премию.
Для компьютерного проектирования белков геометрия критична. Отклонение всего на один ангстрем может свести вероятность успеха эксперимента практически к нулю. Поэтому сначала важно научиться точно оценивать и контролировать геометрию, и только потом переходить к более сложным вопросам, связанным с функцией.
Учёные использовали экспериментальные структуры белковых молекул
Читать на habr.com