Об этом же в других СМИ

habr.com / 1 год назад

Intel и AMD создали консультативную группу c Торвальдсом и Суини по экосистеме x86

cursorinfo.co.il / 1 год назад

Ингредиент, который сделает чай полезнейшим напитком для здоровья и долголетия

hitechexpert.top / 1 год назад

НАСА выбрало две команды для биологических исследований в космосе

habr.com / 1 год назад

Google подписала соглашение о доступе к ядерной энергии для будущих серверов ИИ

incrypted.com / 1 год назад

Минфин США использовал ИИ для отслеживания и взыскания более $4 млрд в 2024 году

Больше по теме

30.09.2024 - 17:05 / habr.com

Калифорнийский университет в Беркли создал систему для анализа текстов DocETL

Система DocETL предлагает инструмент для создания и выполнения пайплайнов обработки данных, заточенных для анализа текстовых документов с помощью больших языковых моделей. Агентный подход помогает задействовать принципы low-code для описания операций. Код DocETL открыт, готовится научная статья о системе.

Кажется, что большие языковые модели (БЯМ) максимально упростили анализ данных. Достаточно разместить в промпте кусок текста и попросить модель написать краткое содержание, выделить какую-то тему или ответить на заданные вопросы. Однако иногда данные попросту не влезают в контекстное окно БЯМ.

На релизе БЯМ семейства Claude 3 компания Anthropic демонстрировала необъятность контекстного окна сравнением с литературными произведениями. Было замечено, что в 200 тыс. токенов контекста без проблем войдёт знакомый американцам по школьной программе роман «Моби Дик» Германа Мелвилла. Однако даже без умозрительных примеров бывают задачи в разы крупнее, чем выгрузить в промпт хрестоматийный образец американского романтизма.

DocETL для описания проблемы предлагает представить датасет со стенограммами президентских дебатов США за последние 40 лет. Общий объём входных данных составляет 738 094 слов. Допустим, что кто-то захотел проанализировать, что обсуждалось и как менялись точки зрения представителей Демократической и Республиканской партий за все эти годы.

Формулировка задачи звучит реалистично. Легко вообразить журналиста, который пытается разобраться в тенденциях американской политики. Однако в промпт большинства существующих БЯМ такой огромный корпус текстов попросту не влезет.

Если «скармливать» в БЯМ по одному тексту, результат будет хуже учитывать глобальный контекст. Неясно, сколько возможно обработать стенограмм за один раз. К

общество самит журналист крипто gemini США

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

HivisionIDPhotos — нейросеть для генерации фотографий для документов habr.com / 1 год назад

Apple открыла в Шэньчжэне лабораторию для экстремальных тестов продуктов habr.com / 1 год назад

Amazfit выпустил новое обновление для смарт-часов Balance gagadget.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 16:01

продукты здоровье самит Здоровье и красота похудение Минус три килограмма за неделю: что нужно добавить в воду

Эксперты назвали простой, безопасный и доступный способ поддержать организм, снизить аппетит и улучшить самочувствие.

16.07 / 15:42

продукты банк еда организм Дом и интерьер Дата роли не играет - консервы могут быть опасными для организма

Срок годности, который написан на крышке консервы, не всегда является определяющим фактором пригодности продукта.

16.07 / 15:24

технологии вирус расследование заражение google Жителя Флориды арестовали за распространение зловредного ПО и кражу криптоактивов

Агенты Федерального бюро расследований (ФБР) арестовали 21-летнего жителя Флориды. Его подозревают в расспространении вредоносного ПО через компьютерные игры для доступа к персональным данным, включая ключи к криптокошелькам, сообщает WPLG Local 10. По данным ФБР, арестованный Зайир Донтаевиус Замарион Уилкинс и его сообщники использовали для своей схемы некую «популярную компанию по цифровой дистрибуции программного обеспечения», вероятно, Steam. Они распространяли через нее зараженные игры. Среди тех, что фигурируют в обвинительном постановлении, указаны: BlockBlasters, Chemia, Dashverse/DashFPS, Lampy, Lunara, PirateFi и Tokenova. Отметим, эти игры фигурировали

16.07 / 15:24

экономика закон доллар Tether usdt Circle выиграла арбитражное дело против связанного с Tether фонда

Компания Circle, эмитент стейблкоина USDC, выиграла арбитражный спор против криптофонда Heka Funds, который поддерживает Tether, пишет FT. Детали дела стали публичными после подачи документов в федеральный суд в Бостоне. В центре конфликта — подозрения Circle, что фонд использовал арбитражные операции с USDC для укрепления позиций своего конкурента Tether. Арбитраж криптовалют: все, что нужно знать в одной статье 14.08.2024 Читать Как возник конфликт между Circle и фондом Heka Согласно материалам дела, в конце 2023 года Circle заблокировала доступ мальтийскому фонду Heka Funds, которым управляет лондонская Abraxas Capital Manag

16.07 / 15:15

бизнес финансы люди экономика деньги Нумерология богатства: как рассчитать свой денежный код

Дата вашего рождения скрывает в себе ваш денежный потенциал, говорят эксперты.

16.07 / 15:13

технологии Apple политика финансирование t-mobile Apple изменила важное правило покупки iPhone в США: теперь смартфоны с рассрочкой могут оказаться заблокированными

Ранее покупатели могли оформить финансирование у одного из операторов-партнеров Apple и при этом получить разблокированный iPhone, который работал с SIM-картами любых операторов. Новая политика компании закрывает такую возможность.

16.07 / 15:00

технологии самит интересное Realme токен Realme Narzo 100x 5G: смартфон с батареей на 8000 мА/ч, который будет работать три дня без подзарядки

Realme решила, что заряжать смартфон каждую ночь — это развлечение не для каждого, и представила Narzo 100x 5G. Главная фишка здесь очевидна: аккумулятор емкостью 8000 мА/ч. Компания обещает, что этого хватит на три дня активного использования. Но интереснее другое — выносливость самого элемента питания. По заявлению производителя, батарея сохранит более 80% своей емкости даже после 1600 циклов зарядки, что эквивалентно примерно четырем годам эксплуатации.

16.07 / 14:53

продукты здоровье общество питание кулинария Когда солить разные виды мяса, чтобы оно не стало сухим

Время добавления соли кардинально влияет на сочность и текстуру мяса, говорят специалисты.

16.07 / 14:53

продукты здоровье продукты питания общество самит Действительно ли морская соль полезнее каменной, рассказали эксперты

Морская соль содержит минералы, но их количество слишком мало, чтобы существенно влиять на здоровье.

16.07 / 14:53

технологии ученые самит человек мозг Привычку, которая каждый день незаметно истощает мозг, назвали ученые

Ученые выяснили, что мозг может истощаться даже после полноценного сна и без серьезных физических или умственных нагрузок.

Лента новостей

На главную страницу