

Синтетические данные в обучении AI: возможности и ограничения
Возможно ли обучить AI только на данных, сгенерированных другим AI? Это может показаться безумной идеей, но она существует уже довольно давно. И по мере того как новые, реальные данные становятся все труднее достать, эта идея набирает популярность.
Компания Anthropic использовала синтетические данные для обучения одной из своих флагманских моделей, Claude 3.5 Sonnet. Meta* доработала свои модели Llama 3.1, используя данные, сгенерированные AI. Говорят, что OpenAI использует синтетические данные для обучения своей модели «reasoning» o1 для предстоящего Orion.
Но почему AI вообще нужны данные — и какие именно данные ему нужны? И могут ли эти данные действительно быть заменены синтетическими данными?
Системы AI — это статистические машины. Обучаясь на большом количестве примеров, они изучают шаблоны в этих примерах, чтобы делать прогнозы. Аннотации, обычно текст, обозначающий значение или части данных, которые эти системы поглощают, являются ключевым элементом в этих примерах. Они служат ориентирами, обучая модель различать вещи, места и идеи.
Рассмотрим модель классификации фотографий, которой показывают множество изображений кухонь с меткой «кухня». По мере обучения модель начнет устанавливать ассоциации между «кухней» и общими характеристиками кухонь (например, тем, что они содержат холодильники и столешницы). После обучения, получив фотографию кухни, которая не входила в начальные примеры, модель должна будет распознать её как таковую. (Конечно, если бы фотографии кухонь были помечены как «корова», она бы идентифицировала их как коров, что подчеркивает важность качественной аннотации.)
Желание развивать AI и необходимость предоставлять помеченные данные для его разработки взорвали рынок услуг аннотации. По оценкам Dimension
Читать на habr.com

