
Википедия предоставляет разработчикам ИИ данные для защиты от ботов
Википедия. пытается отговорить разработчиков искусственного интеллекта от использования платформы, выпустив набор данных, специально оптимизированный для обучения моделей искусственного интеллекта. В среду Фонд Викимедиа было объявлено что он заключил партнерское соглашение с Kaggle, платформой сообщества специалистов по науке о данных, принадлежащей Google, на которой размещаются данные машинного обучения, с целью публикации бета-версии набора данных «структурированного контента Википедии на английском и французском языках».
Wikimedia утверждает, что набор данных, размещенный на Kaggle, был «разработан с учетом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных открыто лицензировано и по состоянию на 15 апреля включает в себя резюме исследований, краткие описания, ссылки на изображения, данные инфобокса и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.
«Хорошо структурированные JSON-представления контента Wikipedia», доступные пользователям Kaggle, должны стать более привлекательной альтернативой «извлечению или анализу необработанного текста статьи», согласно Wikimedia, проблема, которая в настоящее время создает нагрузку на серверы Wikipedia, поскольку автоматизированные боты AI постоянно потребляют пропускную способность платформы. У Wikimedia уже есть соглашения об обмене контентом с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых исследователей данных.
«Kaggle, как место, где сообщество машинного обучения находит инструменты и
Читать на hitechexpert.top
