Proof News: Apple, Nvidia и Anthropic использовали 170 тыс. видео YouTube для обучения своих моделей ИИ без разрешения
Компании в сфере искусственного интеллекта вновь оказались в центре скандала, касающегося интеллектуальной собственности. Аналитики Proof News обнаружили, что разработчики ИИ-сервисов, а именно Apple, Nvidia, Anthropic и Salesforce, использовали субтитры к тысячам YouTube-видео для обучения своих моделей искусственного интеллекта без разрешения авторов.
Согласно расследованию Proof News, субтитры к 172,5 тыс. видеороликов с более чем 48 тыс. каналов вошли в датасет под названием The Pile. Аналитики подчёркивают, что речь идёт только о субтитрах, без видеоряда или звука. Среди каналов, перечисленных Proof News, фигурируют довольно крупные и известные: MKBHD (19 млн подписчиков), MrBeast (289 млн), Jacksepticeye (31 млн), PewDiePie (111 млн), каналы ток-шоу Стивена Колберта, Джона Оливера и Джимми Киммела, а также каналы образовательных учреждений, таких как Массачусетский технологический институт и Гарвардский университет.
Proof News заявляет, что The Pile использовался Apple, Anthropic, Nvidia и Salesforce в исследовательских работах на тему искусственного интеллекта и для обучения ИИ-моделей. Apple использовала The Pile для обучения Apple Intelligence и модели OpenELM, которую представила в апреле этого года.
Права на The Pile принадлежат некоммерческой организации EleutherAI. Proof News утверждает, что организация не получала разрешения на использование видео с YouTube для сбора данных, при этом сам датасет «доступен любому, у кого есть интернет». Отмечается, что в The Pile вошли материалы не только с YouTube, но и из публикаций Европарламента и англоязычной Википедии.
Anthropic и Salesforce подтвердили Wired, что использовали The Pile для «академических и исследовательских целей» при разработке моделей искусственного
Читать на habr.com