
Норвежская библиотека представит LLM с использованием 2 ПБ флэш-памяти Huawei
Норвежская Национальная библиотека разрабатывает большую языковую модель, которая понимает норвежский язык. Учреждение использует 2 ПБ флэш-памяти Huawei OceanStor Dorado в конвейере данных для обучения ИИ.
Мариус Хуснес, руководитель IT-платформы библиотеки (Nasjonlbiblioteket), обсудил проект на форуме Huawei ID Forum 2026 в Париже, заявив, что ни один коммерческий поставщик LLM не разрабатывает модели на местном языке. Он утверждал, что любая страна со своим собственным языком, не имеющая суверенной LLM, обученной на этом языке, находится в невыгодном положении.
Министерство культуры Норвегии поручило Национальной библиотеке создать суверенный ИИ, поскольку библиотека обладает крупнейшей в стране цифровой коллекцией норвежских книг, газет, веб-страниц и т. д. Как и многие государственные библиотеки, она имеет право получать копии каждой опубликованной книги и транслируемого контента. В этой области полномочия библиотеки по обязательному экземпляру распространяются не только на книги, поскольку она была обязана собирать и сохранять все культурное наследие Норвегии.
Соглашение с норвежскими газетами позволило проводить обучение по программе LLM по контенту, защищённому авторским правом.
Библиотека занималась оцифровкой своей коллекции с 2005 года и накопила 20 ПБ уникальных данных, хранящихся в формате 3-2-1 (3 копии, 2 типа носителей, 1 удалённое хранилище), что в общей сложности составляет около 60 ПБ. Процесс оцифровки исходного текста, звука, видео, статичных изображений и веб-контента включал в себя много сканирования с помощью OCR, генерировал много метаданных, а также API для онлайн-доступа.
Основная часть данных была депонирована в цифровом архиве на дисках и лентах — системе сохранения. Задача Хуснеса заключалась в
Читать на habr.com
