Об этом же в других СМИ

habr.com / 1 год назад

Дания будет бороться с дипфейками, предоставляя гражданам авторские права на их тело, черты лица и голос

habr.com / 1 год назад

Писатели подали в суд на Microsoft из-за использования их книг для обучения ИИ

habr.com / 1 год назад

Исследователи DeepSeek выпустили nano-vLLM — компактный движок для запуска языковых моделей

habr.com / 1 год назад

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

itc.ua / 1 год назад

Жители Дании получат авторское право на тело, голос и лицо для защиты от ИИ

Больше по теме

11.06.2025 - 07:59 / habr.com

Исследователи создают массивные наборы данных для обучения ИИ, используя только открытые источники

Common Pile — это первый крупномасштабный текстовый набор данных, полностью созданный на основе открытых источников и предлагающий альтернативу веб-данным, ограниченным авторским правом.

Общая база данных Common Pile v0.1 объемом 8 ТБ была собрана исследователями из Университета Торонто, Hugging Face, EleutherAI, Института искусственного интеллекта Аллена (Ai2) и других. Она объединяет контент из 30 различных источников.

Набор данных объединяет научные статьи и тезисы из Arxiv, медицинские тексты из PubMed Central и миллионы других исследовательских статей. Также включены юридические материалы, такие как патенты США, правительственные документы, судебные решения из проекта Caselaw Access Project и стенограммы дебатов в британском парламенте. Есть также книги из Project Gutenberg и Библиотеки Конгресса, а также широкий спектр бесплатных образовательных ресурсов.

Common Pile также использует данные с форумов StackExchange, логи чатов Ubuntu IRC, обсуждения на GitHub и расшифрованные видео с YouTube с более чем 2000 каналов. Меньшая часть набора данных охватывает тщательно отобранные форматы задач, такие как пары вопросов и ответов и задачи на классификацию.

Всё, что было в Common Pile, должно было соответствовать Open Definition 2.1 от Фонда открытого знания. В отбор попадал только контент с действительно открытыми лицензиями, такими как CC BY, CC BY-SA, CC0, или разрешительными лицензиями на программное обеспечение, такими как MIT или BSD. Всё, что имело ограничения «некоммерческое использование» (CC NC) или «без производных работ» (CC ND), исключалось.

Команда пропустила источники с неясным лицензированием, в том числе YouTube Commons и OpenAlex. Они также избегали текста, сгенерированного искусственным интеллектом на основе

закон семья YouTube политика книги конгресс крипто mefdayy США Англия

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Samsung Wallet теперь поддерживает цифровые ключи для автомобилей Mercedes-Benz gagadget.com / 1 год назад

На территории Дании обнаружили погребение вождя викингов: чем уникально (фото) news.uaportal.com / 1 год назад

Исследователи обучили нейросеть распознавать усталость по движению глаз habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 03:49

люди ученые общество самит человек Почему волосы бывают прямыми или кудрявыми - ответ ученых

Исследователи объяснили, с какими факторами связано появление прямых или кудрявых волос от рождения.

22.07 / 03:31

Nvidia общество политика самит изоляция Проект HAMi для виртуализации ускорителей перешел в инкубатор CNCF

Зачастую дорогие графические процессоры фрагментируются и простаивают. Классическая проблема — задача забирает видеокарту целиком, хотя в действительности использует лишь малую часть ее ресурсов. Как в таком случае эффективно распоряжаться кластером? Не забываем, что оборудование поставляется разными вендорами, каждый из которых предлагает свою модель управления.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

22.07 / 01:44

люди экономика общество климат вода Тарифы за воду вырастут в два раза – прогноз ученых из Стэнфорда

Специалисты Стэнфорда разработали модель для оценки стоимости водоснабжения. Программа учитывает поведение потребителей и климатические угрозы.

22.07 / 01:02

LG Шоу бизнес Телевизоры LG OLED evo 2026 года получат новый режим изображения Creator Original: как он повлияет на просмотр контента

Компания LG Electronics анонсировала новый режим изображения Creator Original, который появится на отдельных моделях телевизоров LG OLED evo 2026 года. Его создали в сотрудничестве с Prime Video, чтобы киностудии и создатели контента могли точнее настраивать отображение своих фильмов и сериалов на совместимых телевизорах.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

Лента новостей

На главную страницу