Google LangExtract: новая библиотека для извлечения структурированных данных из текста с помощью LLM
Google представил LangExtract — новую open-source библиотеку на Python, разработанную для эффективного преобразования больших объемов неструктурированного текста в удобные для анализа структурированные данные. Она предоставляет легковесный интерфейс для работы с большими языковыми моделями (LLM), такими как Gemini, открывая новые возможности для автоматизации извлечения информации.
Одна из ключевых особенностей LangExtract, выделяющая ее на фоне других инструментов, — это уникальный подход к привязке извлеченных сущностей к их источнику. Каждое имя, дата, дозировка или любой другой извлеченный фрагмент информации точно привязывается к символьным смещениям в исходном тексте. Это обеспечивает полную прослеживаемость и верифицируемость результатов: вы всегда можете подсветить найденные данные в оригинальном документе и убедиться в их точности. Больше никаких вопросов о том, «откуда модель это взяла?».
LangExtract гарантирует надежность получаемых данных. Вы самостоятельно определяете желаемый формат вывода с помощью специального представления данных (например, JSON-схема) и предоставляете модели несколько примеров. Используя эти примеры, библиотека направляет LLM через механизм контролируемой генерации, поддерживаемый в моделях Gemini. Это значит, что вы всегда будете получать данные в консистентном и предсказуемом формате, что критически важно для дальнейшей обработки и анализа.
Библиотека эффективно справляется с действительно большими объемами текста. Она способна разбивать объемные документы на «чанки» (фрагменты), которые затем обрабатываются параллельно в несколько проходов, каждый из которых фокусируется на более узком контексте. Для удобства работы с результатами LangExtract умеет генерировать интерактивную и полностью
Читать на habr.com