Гарвард выпустил миллион книг по обучению моделей ИИ
В четверг в университете было объявлено запуск набора данных, содержащего около миллиона книг с открытым исходным кодом, которые могут быть использованы для обучения моделей искусственного интеллекта. В рамках недавно созданной Инициативы по институциональным данным проект получил финансирование от Microsoft и OpenAI и содержит книги, отсканированные с помощью Google Books, которые достаточно старые, чтобы срок действия защиты авторских прав на них истек.
В статье Wired о новом проекте говорится, что набор данных включает в себя широкий спектр книг, в том числе «классические произведения от Шекспира, Чарльза Диккенса и Данте, а также малоизвестные чешские учебники математики и карманные словари валлийского языка». Как правило, защита авторских прав действует в течение всей жизни автора и еще 70 лет.
Такие фундаментальные языковые модели, как ChatGPT, которые ведут себя как настоящие люди, требуют для своего обучения огромных объемов высококачественного текста — как правило, чем больше информации они получают, тем лучше модели имитируют людей и предоставляют знания. Но эта жажда данных вызвала проблемы, поскольку программы, такие как OpenAI, упираются в стену того, сколько новой информации они могут найти — по крайней мере, не крадя ее.
Издатели, включая Wall Street Journal и New York Times, подали в суд на OpenAI и конкурента Perplexity за получение их данных без разрешения. Сторонники компаний ИИ приводят различные аргументы в защиту своей деятельности. Иногда они говорят, что люди создают новые произведения, изучая и синтезируя материалы из других источников, и ИИ ничем не отличается. Все ходят в школу, читают книги, а затем создают новые произведения, используя полученные знания. Ремиксирование юридически считается
Читать на hitechexpert.top
