OpenAI открыла код GABRIEL — GPT-обёртки, которая может убрать ручную разметку данных
OpenAI открыла исходный код GABRIEL - тулкита, который превращает горы неструктурированного текста, картинок и аудио в нормальные числовые данные для исследований. Эта штука, как заявляют авторы, может заменить целую армию научных ассистентов, размечающих данные за $15/час, и сделать это в 17 500 раз дешевле.
GABRIEL расшифровывается как Generalized Attribute Based Ratings Information Extraction Library (да, они очень старались подогнать аббревиатуру под красивое имя). По сути это обёртка вокруг GPT API, заточенная под социологов, экономистов и прочих учёных, которым нужно превратить качественные данные в количественные. То есть взять миллион речей политиков и за минуты оценить каждую по шкале "популизм от 0 до 100" (спойлер: значение стремится к 100), или прогнать все статьи Хабра через фильтр «является ли это технологией». Руками это сделать обойдется в копеечку и долгие месяцы, GABRIEL должен справится за минуты.
Выпустила GABRIEL одна из команд OpenAI, и к тулкиту приложили полноценную академическую статью, где тестировали GPT как инструмент измерения на 1000+ датасетах с человеческой разметкой и как результат - модель неотличима от живых разметчиков по точности. И это не рекламный-меркетинговый ход - это рецензируемая работа, выполненная совместно с Андреем Шлейфером из Гарварда - ученый с высоким h-индекс, поэтому ему нет смысла рисковать своей репутацией.
GABRIEL - это множество функций под одной оболочкой:
gabriel.rate - оценивает тексты/картинки/аудио по любым атрибутам на шкале 0-100. Хотите измерить "токсичность" комментариев в вашем тг канале? «ИИ-шность» рекламных фото? «Пессимизм» финансовых отчётов? Всё это одна строчка кода.
gabriel.classify - классификация по категориям. Закиньте 100к файлов судебных дел (Эпш
