



Раньше в Ancestry оцифровывали документы 9 месяцев. Теперь ИИ справляется за 9 дней
Сказать, что база данных Ancestry обширна, — значит не сказать ничего.
«Мы собрали более 65 млрд записей из 80 с лишним стран, — рассказал Шрирам Тьягараджан, технический директор и исполнительный вице‑президент компании по продуктам и технологиям, в интервью. — Чтобы вы представляли масштаб: это примерно 10 000 ТБ данных, которые мы используем, чтобы открывать нашим пользователям новые факты об их предках».
Основанная в 1983 году в штате Юта, компания Ancestry собирает исторические документы, помогая людям восстановить родословные.
В архив входят записи о рождении и смерти, браках и переписях, военные и земельные документы, сведения об иммиграции, газетные материалы. Кроме того, Ancestry предлагает и наборы для ДНК‑тестов, сотрудничая с такими учреждениями, как Национальное управление архивов и документации США, чтобы пополнять свою коллекцию.
Но у такого колоссального собрания есть и главная трудность: как всё это упорядочить. По словам Тьягараджана, компания стала активно использовать искусственный интеллект и машинное обучение, чтобы справиться с этой почти героической задачей.
Когда в 2017 году Тьягараджан пришёл в команду Ancestry, компания только начинала экспериментировать с ИИ и машинным обучением. «Мы пытались найти способ быстро и эффективно оцифровывать материалы, которые получаем со всего мира», — вспоминает он.
Раньше процесс выглядел так: документы сканировали, затем передавали подрядчикам, которые вручную индексировали и заносили ключевые данные. После этого программа связывала людей, места и события между собой. «Лет пятнадцать‑двадцать назад, когда мы оцифровывали перепись 1940 года, нам понадобилось девять месяцев и расходы в десять раз выше нынешних», — говорит Тьягараджан.
Тогда команда Ancestry всерьёз
Читать на habr.com
