Искусственный интеллект почти всему научился: нехватка данных сыграет злую шутку, — ученые
Эксперты задаются вопросом, как модели ИИ будут развиваться в будущем, когда уже неоткуда будет брать новые тексты или изображения. Несколько вариантов они уже придумали. Искусственному интеллекту будет нечему обучаться из-за нехватки данных если к 2026 году человечество сохранит ритм и методику тренировок больших языковых моделей (LLM), что замедлит или даже изменит развитие ИИ, считают ученые.
Об этом пишет портал The Conversation. В своей опубликованной работе они указывают, что, например, ChatGPT обучался на 570 гигабайтах текстовых данных, или около 300 миллиардов слов. Аналогичным образом, алгоритм стабильной диффузии (который лежит в основе многих приложений для создания изображений искусственного интеллекта, таких как DALL-E, Lensa и Midjourney) был обучен на наборе данных LIAON-5B, состоящем из 5,8 миллиарда пар "изображение-текст".
Если алгоритм обучен на недостаточном объеме данных, то он будет выдавать неточные или некачественные результаты. Специалисты так же особо отмечают, что для развития LLM критическое значение имеет и качество контента, на котором обучаются большие языковые модели. В этом аспекте для тренировок очень слабо подходят соцсети, поскольку качество информации в них часто является манипулятивным, что приведет к неправдивым результатам от ИИ.
Текст, взятый с платформ социальных сетей, может быть предвзятым или может содержать дезинформацию или незаконный контент, который может быть воспроизведен моделью. По данным ученых, сейчас разработчики ИИ ищут высококачественный контент, такой как текст из книг, онлайн-статей, научных работ, Википедии и определенный отфильтрованный веб-контент. Например, Google Assistant был обучен на 11 000 любовных романах, взятых с сайта самостоятельной публикации
. Читать на focus.ua
