WSJ: OpenAI рассматривает возможность использования транскрипций с YouTube для обучения GPT-5
OpenAI рассматривает возможность обучения своей следующей модели искусственного интеллекта GPT-5 на транскрипциях роликов с YouTube, сообщила Wall Street Journal со ссылкой на источники. Таким образом компании в сфере ИИ ищут неиспользованные источники информации и переосмысливают способы обучения своих нейросетевых систем.
Кроме того, компании экспериментируют с использованием сгенерированных ИИ или синтетических данных в качестве материала для обучения. Однако, по мнению многих исследователей, этот подход может привести к серьёзным сбоям.
Руководители компаний часто скрывают подобные планы, поскольку такие решения могут стать конкурентным преимуществом.
Нехватка данных — это передовая проблема исследований, объясняет исследователь ИИ Ари Моркос, который ранее работал в подразделении Meta* Platforms и DeepMind до основания DatologyAI в прошлом году. Его компания разрабатывает инструменты для улучшения отбора данных, которые могут помочь в обучении ИИ-моделей с меньшими затратами.
Также индустрия ИИ испытывает нехватку чипов, лежащих в основе ChatGPT, Gemini и других чат-ботов. Лидеры отрасли обеспокоены дефицитом центров обработки данных и электроэнергии, необходимой для питания дата-центров.
Языковые модели ИИ создают с использованием текста, полученного из интернета, включая научные исследования, новостные материалы и статьи из «Википедии». Эти работы разбивают на токены — слова и части слов, которые модели используют, чтобы формулировать выражения на естественных языках.
OpenAI не раскрывает подробности об учебном материале для GPT-4, которая установила стандарт для передовых генеративных систем ИИ. Исследователь ИИ в институте Epoch Пабло Виллалобос подсчитал, что GPT-4 обучили на 12 трлн токенов. По оценкам Виллалобоса и
Читать на habr.com