TabularARGN – гибкая и эффективная авто-регрессивная структура для генерации высококачественных синтетических данных
MOSTLY AI открыла доступ к архитектуре TabularARGN и исходному коду нейронной модели (лицензия Apache v2), которая позволяет эффективно генерировать структурированные синтетические данные. В опубликованной статье авторы подробно описывают структуру модели TabularARGN и ее возможности.
TabularARGN является нейронной моделью, предназначенной для создания синтетических данных и позволяющей организациям безопасно использовать свои информационные ресурсы в виде структурированных данных, производить их анализ, обучать модели машинного обучения на их основе, обмениваться данными между структурами организации при обеспечении их конфиденциальности. Независимо от того, идет ли речь о простых одиночных ("плоских") таблицах с разнообразными типами данных или нескольких связанных друг с другом таблиц с нерегулярной структурой ("реляционные" таблицы) и различной длиной последовательностей (н-р, временные ряды или наборы предметов и т.д.), TabularARGN демонстрирует надежность и высокую производительность. Она способна обрабатывать сложные данные, что должно позволить применять ее в широком спектре реальных сценариев при сохранении статистической достоверности сгенерированных данных и предоставлении гарантий конфиденциальности, включая дифференциальную приватность (differential privacy, DP).
В отличие от других генераторов синтетических данных, которые полагаются на сложные и ресурсоемкие архитектуры, TabularARGN представляет собой достаточно простую, но эффективныю архитектуру авто-регрессивной нейронной сети. Авторы адаптировали и расширили авто-регрессивные концепции для решения уникальных задач структурированных (табличных) данных, что позволило создать модель высокого качества по скорости и надежности.
В чем уникальность TabularARGN?
В
Читать на habr.com