FlexOlmo позволяет организациям совместно обучать языковые модели без обмена данными
FlexOlmo, разработанный в Институте искусственного интеллекта Аллена, демонстрирует возможность совместной работы организаций над языковыми моделями на основе локальных наборов данных без передачи конфиденциальных данных.
FlexOlmo основан на архитектуре Mixture-of-Experts (MoE), где каждый эксперт соответствует модулю прямой передачи (FFN), обученному независимо. Фиксированная общедоступная модель (обозначается как Mpub) служит общим якорем. Каждый владелец данных обучает эксперта Mi на своём частном наборе данных D_i, в то время как все слои внимания и другие параметры, не относящиеся к экспертам, остаются замороженными.
Основная проблема, связанная с независимыми экспертами, — это координация. FlexOlmo решает эту проблему, используя замороженную общедоступную модель в качестве эталона. Общедоступный эксперт не меняется в процессе обучения, в то время как новые эксперты обучаются на локальных данных. Таким образом, все эксперты соответствуют одной и той же эталонной модели и могут быть объединены без дополнительного переобучения.
FlexOlmo хорошо подходит для случаев, когда необходимо строго контролировать доступ к данным. Источники данных можно активировать или деактивировать в зависимости от приложения. Например, токсичный контент может быть включен для исследования, но исключен из общего доступа.
Исследователи продемонстрировали это, удалив эксперта по новостям в ходе тестового запуска. Как и ожидалось, производительность при выполнении задач, связанных с новостями, снизилась, но результаты в других областях остались стабильными.
Даже если лицензии изменятся или истечёт срок действия прав на использование, источники данных можно будет деактивировать без переобучения всей модели. В итоговой модели 37 миллиардов параметров,
Читать на habr.com