Об этом же в других СМИ

habr.com / 11 месяцев назад

Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM

habr.com / 11 месяцев назад

NASA и Google Cloud тестируют ИИ-врача для астронавтов

habr.com / 11 месяцев назад

Google внедрила функцию создания иллюстрированных книг в Gemini

habr.com / 11 месяцев назад

Google представляет новых ИИ-агентов для анализа данных и научных исследований

habr.com / 11 месяцев назад

Jules от Google вышел из беты

Больше по теме

06.08.2025 - 05:11 / habr.com

Google LangExtract: новая библиотека для извлечения структурированных данных из текста с помощью LLM

Google представил LangExtract — новую open-source библиотеку на Python, разработанную для эффективного преобразования больших объемов неструктурированного текста в удобные для анализа структурированные данные. Она предоставляет легковесный интерфейс для работы с большими языковыми моделями (LLM), такими как Gemini, открывая новые возможности для автоматизации извлечения информации.

Одна из ключевых особенностей LangExtract, выделяющая ее на фоне других инструментов, — это уникальный подход к привязке извлеченных сущностей к их источнику. Каждое имя, дата, дозировка или любой другой извлеченный фрагмент информации точно привязывается к символьным смещениям в исходном тексте. Это обеспечивает полную прослеживаемость и верифицируемость результатов: вы всегда можете подсветить найденные данные в оригинальном документе и убедиться в их точности. Больше никаких вопросов о том, «откуда модель это взяла?».

LangExtract гарантирует надежность получаемых данных. Вы самостоятельно определяете желаемый формат вывода с помощью специального представления данных (например, JSON-схема) и предоставляете модели несколько примеров. Используя эти примеры, библиотека направляет LLM через механизм контролируемой генерации, поддерживаемый в моделях Gemini. Это значит, что вы всегда будете получать данные в консистентном и предсказуемом формате, что критически важно для дальнейшей обработки и анализа.

Библиотека эффективно справляется с действительно большими объемами текста. Она способна разбивать объемные документы на «чанки» (фрагменты), которые затем обрабатываются параллельно в несколько проходов, каждый из которых фокусируется на более узком контексте. Для удобства работы с результатами LangExtract умеет генерировать интерактивную и полностью

технологии самит лекарства Apache google gemini mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

В Google Gemini появился бесплатный режим ИИ-репетитора habr.com / 11 месяцев назад

Центры обработки данных потребляют уже 8.9% всей электроэнергии в США habr.com / 11 месяцев назад

ByteDance разогнала языковую модель в 5.4 раза с помощью дискретной диффузии habr.com / 11 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 15:24

технологии вирус расследование заражение google Жителя Флориды арестовали за распространение зловредного ПО и кражу криптоактивов

Агенты Федерального бюро расследований (ФБР) арестовали 21-летнего жителя Флориды. Его подозревают в расспространении вредоносного ПО через компьютерные игры для доступа к персональным данным, включая ключи к криптокошелькам, сообщает WPLG Local 10. По данным ФБР, арестованный Зайир Донтаевиус Замарион Уилкинс и его сообщники использовали для своей схемы некую «популярную компанию по цифровой дистрибуции программного обеспечения», вероятно, Steam. Они распространяли через нее зараженные игры. Среди тех, что фигурируют в обвинительном постановлении, указаны: BlockBlasters, Chemia, Dashverse/DashFPS, Lampy, Lunara, PirateFi и Tokenova. Отметим, эти игры фигурировали

16.07 / 15:24

экономика закон доллар Tether usdt Circle выиграла арбитражное дело против связанного с Tether фонда

Компания Circle, эмитент стейблкоина USDC, выиграла арбитражный спор против криптофонда Heka Funds, который поддерживает Tether, пишет FT. Детали дела стали публичными после подачи документов в федеральный суд в Бостоне. В центре конфликта — подозрения Circle, что фонд использовал арбитражные операции с USDC для укрепления позиций своего конкурента Tether. Арбитраж криптовалют: все, что нужно знать в одной статье 14.08.2024 Читать Как возник конфликт между Circle и фондом Heka Согласно материалам дела, в конце 2023 года Circle заблокировала доступ мальтийскому фонду Heka Funds, которым управляет лондонская Abraxas Capital Manag

16.07 / 15:15

бизнес финансы люди экономика деньги Нумерология богатства: как рассчитать свой денежный код

Дата вашего рождения скрывает в себе ваш денежный потенциал, говорят эксперты.

16.07 / 15:13

технологии Apple политика финансирование t-mobile Apple изменила важное правило покупки iPhone в США: теперь смартфоны с рассрочкой могут оказаться заблокированными

Ранее покупатели могли оформить финансирование у одного из операторов-партнеров Apple и при этом получить разблокированный iPhone, который работал с SIM-картами любых операторов. Новая политика компании закрывает такую возможность.

16.07 / 15:00

технологии самит интересное Realme токен Realme Narzo 100x 5G: смартфон с батареей на 8000 мА/ч, который будет работать три дня без подзарядки

Realme решила, что заряжать смартфон каждую ночь — это развлечение не для каждого, и представила Narzo 100x 5G. Главная фишка здесь очевидна: аккумулятор емкостью 8000 мА/ч. Компания обещает, что этого хватит на три дня активного использования. Но интереснее другое — выносливость самого элемента питания. По заявлению производителя, батарея сохранит более 80% своей емкости даже после 1600 циклов зарядки, что эквивалентно примерно четырем годам эксплуатации.

16.07 / 14:53

продукты здоровье общество питание кулинария Когда солить разные виды мяса, чтобы оно не стало сухим

Время добавления соли кардинально влияет на сочность и текстуру мяса, говорят специалисты.

16.07 / 14:53

продукты здоровье продукты питания общество самит Действительно ли морская соль полезнее каменной, рассказали эксперты

Морская соль содержит минералы, но их количество слишком мало, чтобы существенно влиять на здоровье.

16.07 / 14:53

технологии ученые самит человек мозг Привычку, которая каждый день незаметно истощает мозг, назвали ученые

Ученые выяснили, что мозг может истощаться даже после полноценного сна и без серьезных физических или умственных нагрузок.

16.07 / 14:38

технологии происшествия Tesla расследование google Хакеры похитили почти $24 млн из DeFi-протокола Ostium через манипуляцию ценовым оракулом

DeFi-протокол Ostium подвергся масштабному взлому, в результате которого из публичного пула ликвидности OLP было похищено около $23,75 млн. По данным исследователей, после атаки злоумышленник обменял все похищенные 23,75 млн USDC на 12 084 ETH по средней цене около $1966 за монету. Впоследствии большую часть Ethereum перевели в криптомиксер Tornado Cash, чтобы скрыть происхождение средств. Отметим, Ostium — это платформа для синтетических деривативов, где пользователи могут открывать позиции на акции таких компаний, как Tesla, Nvidia или Meta. Хакер воспользовался уязвимостью ценового оракула По информации исследовательс

16.07 / 14:38

связь экономика самит эфир google Антон Буков заявил об увольнении из 1inch и анонсировал новый проект

Сооснователь 1inch Антон Буков рассказал, что в конце ноября 2025 года был уволен из компании. Он сохранил статус сооснователя и 50% акций, но полностью отстранен от операционной деятельности — в том числе от продуктовой архитектуры и безопасности протокола. Параллельно Буков анонсировал новый проект — Second Tier. Буков напомнил, что стал сооснователем 1inch в мае 2019 года и его роль всегда была технической: он вел архитектуру протокола, безопасность и экономический дизайн — от первого DEX-агрегатора 1inch Router до обновления Fusion, кроссчейн-свопов и готовящегося Shared Liquidity AMM. По его словам, обратная связь от пользователей и коллег за последний год дала понять, что он «больше не может оставаться в стороне от управленческой и операционной части компании».

Лента новостей

На главную страницу