Исследователи создают массивные наборы данных для обучения ИИ, используя только открытые источники
Common Pile — это первый крупномасштабный текстовый набор данных, полностью созданный на основе открытых источников и предлагающий альтернативу веб-данным, ограниченным авторским правом.
Общая база данных Common Pile v0.1 объемом 8 ТБ была собрана исследователями из Университета Торонто, Hugging Face, EleutherAI, Института искусственного интеллекта Аллена (Ai2) и других. Она объединяет контент из 30 различных источников.
Набор данных объединяет научные статьи и тезисы из Arxiv, медицинские тексты из PubMed Central и миллионы других исследовательских статей. Также включены юридические материалы, такие как патенты США, правительственные документы, судебные решения из проекта Caselaw Access Project и стенограммы дебатов в британском парламенте. Есть также книги из Project Gutenberg и Библиотеки Конгресса, а также широкий спектр бесплатных образовательных ресурсов.
Common Pile также использует данные с форумов StackExchange, логи чатов Ubuntu IRC, обсуждения на GitHub и расшифрованные видео с YouTube с более чем 2000 каналов. Меньшая часть набора данных охватывает тщательно отобранные форматы задач, такие как пары вопросов и ответов и задачи на классификацию.
Всё, что было в Common Pile, должно было соответствовать Open Definition 2.1 от Фонда открытого знания. В отбор попадал только контент с действительно открытыми лицензиями, такими как CC BY, CC BY-SA, CC0, или разрешительными лицензиями на программное обеспечение, такими как MIT или BSD. Всё, что имело ограничения «некоммерческое использование» (CC NC) или «без производных работ» (CC ND), исключалось.
Команда пропустила источники с неясным лицензированием, в том числе YouTube Commons и OpenAlex. Они также избегали текста, сгенерированного искусственным интеллектом на основе
Читать на habr.com
