Международная группа учёных представила ИИ‑модель для генерации белковых молекул на основе латентной диффузии
Учёные из Института AIRI и немецкого университета Constructor University представили совместную работу, посвящённую разработке ИИ‑модели для генерации искусственных белков DiMA. Специалисты отметили, что одна из практических задач новой модели — генерация белков с заранее определёнными характеристиками. Результаты исследования представлены на 42 Международной конференции по машинному обучению ICML 2025.
DiMA способна создавать не встречавшиеся ранее в природе белковые последовательности, точно соответствующие заданным исследователями критериям. Новые белки необходимы для разработки лекарственных препаратов, рассказали информационной службе Хабра в AIRI.
С точки зрения химии, белок представляет собой полимер: цепочку из аминокислот, которые в результате взаимодействий в пространстве сворачиваются в определённую структуру. Эту структуру можно представить как набор координат всех атомов в трёхмерном пространстве или в развёрнутом виде — как последовательность аминокислот, где каждую аминокислоту можно записать как отдельную «букву». Вследствие чего формируется что‑то похожее на длинные слова или предложения, где каждая «буква» означает уникальные физико‑химические свойства. Последовательность этих символов определяет, как белок свернётся и какие функции и характеристики будет иметь.
Для создания искусственных белков учёные уже применяли различные языковые модели. Авторегрессионные модели (например, ChatGPT) генерируют белковые последовательности побуквенно. Дискретные диффузионные модели (например, DALL‑E 3) создают всю последовательность («слово») сразу. Однако оба этих подхода требуют большого размера модели и огромного количества данных для обучения.
Специалисты из AIRI и Constructor University предложили принципиально
Читать на habr.com

