Яндекс впервые применил LLM для фотоперевода с учётом контекста
Сегодня хочу поделиться с вами новостью, которую лично я очень ждал. В Переводчике и Браузере заработала новая технология перевода текста на фото и изображениях. Ключевых изменений два. Во-первых, мы впервые используем большую языковую модель, чтобы переводить картинки с учётом контекста. Во-вторых, мы улучшили визуализацию — текст перевода теперь больше похож на оригинальную вёрстку. Это может быть полезно, например, для перевода меню в ресторане, технической документации, дорожных указателей и книг. Под катом расскажу чуть подробнее о новой технологии и покажу несколько примеров новой визуализации.
Для перевода текста на изображениях мы создали две новые модели семейства YandexGPT, адаптированные под задачи перевода с английского на русский. Почему две? Современные LLM требуют больших вычислительных ресурсов, поэтому мы провернули трюк с дистилляцией. Сначала мы обучили большую модель на множестве пар оригинальных и переведённых текстов. Модели показывали примеры качественных и плохих переводов, чтобы она училась подражать эталонным, избегала ошибок и не добавляла в свои тексты несуществующие детали. Так мы получили очень умную модель, но слишком тяжеловесную для применения в высоконагруженном сервисе. Затем мы использовали ответы большой модели для обучения маленькой. Так знания «учительской» модели передаются к меньшей «ученической». В результате качество ответов снижается незначительно относительно «учительской» модели, но при этом потребляется существенно меньше вычислительных ресурсов.
Новая модель учитывает стиль оригинального текста и может сохранить игру слов, например, на фотографиях рекламных слоганов или газетных заголовков. Новая технология подбирает более уместные формулировки во фразах с несколькими
Читать на habr.com