Microsoft опенсорснула семейство эмбеддингов Harrier
Компания Microsoft объявила о выпуске Harrier-OSS-v1 - семейства из трёх многоязычных моделей встраивания текста, предназначенных для создания высококачественных семантических представлений на широком спектре языков. В релиз вошли три модели с разным количеством параметров: модель с 270M параметрами, модель с 0,6B параметрами и модель с 27B параметрами.
Модели Harrier-OSS-v1 показали лучшие на сегодняшний день (SOTA) результаты на многоязычном тесте MTEB (Massive Text Embedding Benchmark) v2. Для специалистов в области искусственного интеллекта этот релиз знаменует собой важную веху в развитии технологий поиска с открытым исходным кодом. Он предлагает масштабируемый набор моделей, использующих современные архитектуры больших языковых моделей для решения задач встраивания.
Семейство Harrier-OSS-v1 отходит от традиционных двунаправленных архитектур кодировщиков (таких как BERT), которые уже много лет доминируют в сфере встраивания. Вместо этого в этих моделях используются архитектуры с декодером, аналогичные тем, что применяются в современных больших языковых моделях (БЯМ).
Использование декодера в качестве основы для обучения - это новый подход к обработке контекста. В каузальной модели (только с декодером) каждый токен может учитывать только те токены, которые предшествуют ему. Чтобы получить единый вектор, представляющий весь входной поток, Harrier использует объединение по последнему токену. Это означает, что скрытое состояние самого последнего токена в последовательности используется в качестве совокупного представления текста, которое затем подвергается нормализации по L2, чтобы обеспечить единообразие вектора.
Модели Harrier-OSS-v1 отличаются разной размерностью эмбеддингов и поддерживают длинные контекстные входы. В
Читать на habr.com
