

Trillion Gene Atlas: как Basecamp Research собирается «переварить» генетику планеты за два года
Пока мир спорит, заменит ли ChatGPT копирайтеров, британская компания Basecamp Research замахнулась на значительно более масштабную цель — оцифровать генетическое разнообразие Земли. Их новый проект Trillion Gene Atlas обещает сделать за два года то, на что раньше ушло бы два десятилетия. План прост, но дерзок: собрать и проанализировать данные более чем 100 миллионов ранее не изученных видов живых организмов, увеличив объем известного генетического разнообразия планеты примерно в 100 раз.
Проблема современной цифровой биологии в том, что большинство ИИ-моделей «жуют» одни и те же публичные базы данных. Это создает ситуацию, когда алгоритмы становятся умнее, но их кругозор остается ограниченным узким набором известных последовательностей. В Basecamp Research считают, что именно нехватка разнообразных данных является главным тормозом прогресса.
Компания уже успела натренировать семейство моделей EDEN на собственной базе BaseData. В ней содержится более 10 миллиардов ранее неизвестных науке генов, найденных в миллионах новых видов. Результаты оказались интересными: выяснилось, что при увеличении разнообразия биологических данных возможности ИИ растут быстрее, чем предполагали стандартные законы масштабирования.
Чтобы реализовать Trillion Gene Atlas, британцы собрали настоящий «отряд мстителей» от мира технологий. Anthropic (создатели Claude) поможет с интеграцией ИИ-ассистентов в научные процессы, Ultima Genomics обеспечит сверхбыстрое секвенирование, PacBio предоставит технологию точных длинных последовательностей, а вся вычислительная мощность ляжет на плечи инфраструктуры Nvidia.
Авторы проекта не стесняются сравнивать свою задумку с проектом «Геном человека». Но если в начале века ученые потратили годы на расшифровку
Читать на gagadget.com