От протокола до пробирки: ИИ-система помогла создать 35 соединений, которых не было в природе
Химики из Йельского университета и фармкомпании Boehringer Ingelheim нашли случай, когда 2 498 маленьких моделей работают лучше одной большой. Их ИИ-платформа MOSAIC, построенная на Llama 3.1-8B-instruct, сгенерировала лабораторные протоколы для синтеза более 35 ранее не описанных соединений — от молекул для разработки лекарств до косметических компонентов. Код системы открытый и распространяется свободно.
Обычно путь от целевой молекулы до рабочего протокола выглядит так: химик ищет похожие реакции в базах данных, читает статьи, адаптирует чужие методы под свою задачу. Проблема в том, что ежегодно публикуются сотни тысяч новых реакций — отследить все невозможно. А протоколы из статей часто не переносятся напрямую: там синтезировали молекулу A, а ученому нужна похожая B, и приходится угадывать, сработает ли. Первая попытка нередко проваливается, оптимизация занимает недели.
MOSAIC решает проблему иначе — вместо одной универсальной модели система разбивает пространство химических реакций на 2 498 регионов Вороного и обучает отдельного "эксперта" на каждом. Когда пользователь вводит целевую молекулу, платформа определяет подходящий регион и передает запрос профильному специалисту. На выходе — не ссылка на статью, а готовый протокол с конкретными реагентами, условиями и оценкой уверенности. Последняя показывает, насколько запрос попадает в зону компетенции эксперта, — это позволяет приоритизировать эксперименты: сначала пробовать те, где уверенность системы выше.
При экспериментальной проверке система показала 71% успешных синтезов. Среди полученных соединений — молекулы фармацевтического профиля, катализаторы, агрохимикаты и косметические компоненты. Часть из них синтезирована через сложные реакции: кросс-сочетание Сузуки,
Читать на habr.com