Калифорнийский университет в Беркли создал систему для анализа текстов DocETL
Система DocETL предлагает инструмент для создания и выполнения пайплайнов обработки данных, заточенных для анализа текстовых документов с помощью больших языковых моделей. Агентный подход помогает задействовать принципы low-code для описания операций. Код DocETL открыт, готовится научная статья о системе.
Кажется, что большие языковые модели (БЯМ) максимально упростили анализ данных. Достаточно разместить в промпте кусок текста и попросить модель написать краткое содержание, выделить какую-то тему или ответить на заданные вопросы. Однако иногда данные попросту не влезают в контекстное окно БЯМ.
На релизе БЯМ семейства Claude 3 компания Anthropic демонстрировала необъятность контекстного окна сравнением с литературными произведениями. Было замечено, что в 200 тыс. токенов контекста без проблем войдёт знакомый американцам по школьной программе роман «Моби Дик» Германа Мелвилла. Однако даже без умозрительных примеров бывают задачи в разы крупнее, чем выгрузить в промпт хрестоматийный образец американского романтизма.
DocETL для описания проблемы предлагает представить датасет со стенограммами президентских дебатов США за последние 40 лет. Общий объём входных данных составляет 738 094 слов. Допустим, что кто-то захотел проанализировать, что обсуждалось и как менялись точки зрения представителей Демократической и Республиканской партий за все эти годы.
Формулировка задачи звучит реалистично. Легко вообразить журналиста, который пытается разобраться в тенденциях американской политики. Однако в промпт большинства существующих БЯМ такой огромный корпус текстов попросту не влезет.
Если «скармливать» в БЯМ по одному тексту, результат будет хуже учитывать глобальный контекст. Неясно, сколько возможно обработать стенограмм за один раз. К
Читать на habr.com


