Google продолжает использовать контент для обучения ИИ, несмотря на отказы издателей
Издатели отозвали 80 миллиардов обучающих токенов из Google DeepMind, но Google по-прежнему использует их контент для обучения ИИ поиску. Google использует контент со всего интернета для обучения своих моделей искусственного интеллекта для поиска, даже если владельцы сайтов прямо говорят «нет». Об этом заявил Эли Коллинз, вице-президент Google DeepMind, во время слушаний в суде Вашингтона, согласно Bloomberg.
Текущая система отказа от использования контента издателями распространяется только на DeepMind, исследовательское подразделение Google, занимающееся искусственным интеллектом и обучающее модели Gemini. Другие подразделения Google, в том числе команда, отвечающая за веб-поиск, по-прежнему могут использовать этот контент для своих собственных систем искусственного интеллекта.
Во время слушаний Диана Агилар из Министерства юстиции США спросила: «Как только вы возьмёте модель Gemini AI и поместите её в поисковую систему, поисковая система сможет обучаться на данных, от которых отказались издатели, верно?» Коллинз ответил: «Верно — для использования в поиске».
Google использует эти данные для поддержки таких функций поиска, как «AI-обзоры», которые отображают ответы, сгенерированные ИИ, непосредственно над традиционными результатами поиска. Это ставит Google в прямое конкурентное положение с владельцами веб-сайтов, поскольку пользователи могут получать ответы, не переходя на сайты, контент которых использовался для их генерации.
Во внутреннем документе Google, датированном летом 2024 года, перечислено 160 миллиардов токенов, или коротких фрагментов текста, которые изначально предназначались для обучения ИИ. Из них 80 миллиардов токенов были удалены, поскольку они были получены от издателей, отказавшихся от участия.
Но, судя
Читать на habr.com