ZeroSearch: Alibaba обучает поискового помощника с помощью AI
Исследовательская лаборатория Tongyi компании Alibaba представила ZeroSearch — новый метод обучения больших языковых моделей для решения задач поиска, не полагаясь на реальные поисковые запросы в интернете. Чтобы чат-боты могли точно отвечать на вопросы, особенно когда их встроенных знаний недостаточно, им нужно научиться находить информацию на лету. Большинство современных подходов используют обучение с подкреплением (RL) и полагаются на реальные поисковые системы, такие как Google, для обучения этому навыку. Но, по словам команды Alibaba, это дорого, сложно контролировать и плохо масштабируется.
ZeroSearch использует другой подход: вместо использования реальных веб-поисков во время обучения, он имитирует процесс поиска с помощью второй языковой модели. Эта модель генерирует короткие тексты в ответ на поисковые запросы, предоставляя либо релевантную, либо намеренно нерелевантную информацию — имитируя реальные результаты поиска, но под полным контролем исследователей.
Языковая модель Qwen-2.5, которая является основной обучаемой моделью, проходит структурированный процесс обучения. В каждом раунде она решает, нужно ли ей искать больше информации. Если да, она создает запрос и отправляет его в имитационную модель. Затем модель просматривает сгенерированные документы и отвечает, оценивая свой ответ и получая обратную связь с помощью RL. Убедиться в этом и протестировать модель вы можете, перейдя на BotHub по реферальной ссылке.
В начале обучения имитируемые результаты поиска намеренно полезны. Со временем качество постепенно снижается — подход к обучению по программе. Это помогает модели научиться делать полезные выводы даже из неясной или противоречивой информации, как при поиске в реальном интернете.
Сама имитационная модель
Читать на habr.com