Wikidata получил новую базу данных в векторном исполнении для обработки моделями ИИ
Дочерний проект Wikimedia — Wikidata — получил новую базу данных в векторном исполнении, которую удобнее обрабатывать моделям искусственного интеллекта.
Проект хранит изображения, текст, ключевые слова и другую информацию, связанную с материалами интернет-энциклопедии, в машиночитаемых форматах, таких как JSON.
Обновление базы данных упростит обработку информации большими языковыми моделями. Его проводило немецкое отделение Wikimedia Deutschland, которое курирует Wikidata. Команда использовала масштабную языковую модель, чтобы преобразовать 30 млн записей Wikidata в векторы, отражающие контекст и смысл каждой записи.
В векторизованном формате информацию лучше всего представить в виде графика с точками и взаимосвязанными линиями, пояснила руководитель портфолио Wikidata Лидия Пинчер. Это упрощает разработчикам ИИ доступ к бэкенду, например, при создании собственных чат-ботов.
По словам Пинчер, цель проекта — уравнять условия для разработчиков ИИ, не относящихся к крупным технологическим компаниям. Такие компании, как OpenAI и Anthropic, располагают собственными ресурсами для векторизации Wikidata, но у небольших компаний их нет.
Пинчер приводит в пример проект Govdirectory, который использовал данные Wikidata, собранные волонтёрами, чтобы находить ники в социальных сетях и адреса электронной почты государственных служащих по всему миру.
Команда надеется, что более лёгкий доступ к Wikidata приведёт к созданию систем ИИ, которые лучше отражают узкоспециализированные темы, не представленные широко в интернете. На практике векторизация позволит системам ИИ быстрее получать доступ к контексту информации, а не только к ней самой, рассказал руководитель проекта Wikidata AI Филипп Сааде.
Команда использовала модель от компании Jina AI,
Читать на habr.com