Об этом же в других СМИ

habr.com / 3 месяца назад

Вышел Cursor 3: внутри Composer 2, и можно запускать сколько угодно агентов

incrypted.com / 3 месяца назад

Ant Group представила платформу Anvita для транзакций ИИ-агентов в криптоинфраструктуре

habr.com / 3 месяца назад

Gemini от Google пришёл на ТВ через YouTube – нажимайте кнопку “Спросить” и говорите с видео

habr.com / 3 месяца назад

Исследование: бизнес потратил на внедрение ИИ-агентов от 5 млн до 950 млн рублей

habr.com / 3 месяца назад

Главным направлением развития ИИ в 2026 году становится внедрение ИИ-агентов

Больше по теме

18.03.2026 - 15:56 / habr.com

OpenClaw-RL обучает ИИ-агентов в реальном времени, непрерывно говоря с ними

До недавнего времени все взаимодействия с нейросетью использовались лишь как контекст для следующего шага – и тут же забывались. Команда ученых из Принстона посчитала такой подход системной ошибкой и разработала архитектуру, которая превращает эти мимолетные сигналы в тренировочный материал. Фреймворк не делает различий между личной перепиской, работой в командной строке, задачами по разработке ПО или вызовами инструментов – все стекается в один конвейер для улучшения единой модели.

По словам исследователей, в этих постсигналах скрыты два типа информации, которые ранее игнорировались. Первый – оценочный. Если пользователь переспрашивает то же самое, модель фиксирует неудовлетворенность. Если автоматический тест проходит – действие было верным. Сигналы становятся естественной оценкой качества каждого шага без необходимости ручной разметки. Прежние методы в лучшем случае использовали такие данные постфактум, выуживая их из заранее собранных датасетов.

Второй тип – направляющий. Когда человек пишет “Надо было сначала проверить файл”, эта реплика содержит не просто оценку (“плохо”), а конкретное указание, что именно следовало сделать иначе. Обычные системы обучения с подкреплением сжимают такую обратную связь в обычное число (награду), теряя по дороге всю содержательную часть.

Архитектура OpenClaw-RL разбита на четыре несвязанных блока: один обслуживает запросы к модели, второй управляет окружениями, третий оценивает качество ответов, а четвертый занимается непосредственно тренировкой весов. Ни один из них не ждет другой: модель отвечает на следующий запрос пользователя в тот момент, когда модель-оценщик анализирует предыдущий ответ, а тренировочный модуль параллельно обновляет веса.

Исследователи проверили OpenClaw-RL на модели

связь технологии общество самит крипто dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Amazon научил ИИ-агентов эволюционировать: 3 строки кода и первое место на бенчмарке habr.com / 3 месяца назад

Команда 1inch открыла доступ к API проекта для ИИ-агентов incrypted.com / 3 месяца назад

Google запускает для украинского бизнеса бесплатный курс по созданию ИИ-агентов gagadget.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

26.07 / 07:24

смартфоны электромобиль Дом и интерьер Транспорт Fiat возрождает легендарную Multipla в виде компактного электромобиля

Fiat представил концепт компактного электромобиля Multiplina, вдохновленного культовой моделью Fiat 600 Multipla 1956 года. Новинку показали на мероприятии Big at Small в Риме.

26.07 / 06:50

продукты общество самит Здоровье и красота питание Полезные привычки, которые незаметно вредят метаболизму

Четыре распространенные привычки кажутся полезными, но могут снижать уровень энергии и мешать поддерживать мышечную массу.

26.07 / 06:50

технологии продукты питания общество самит еда Можно ли на самом деле есть вафельный стаканчик от мороженого

Эксперт по пищевым технологиям рассказал, что вафельные стаканчики и рожки делают из муки, воды и масла с добавлением сахара для хруста.

26.07 / 06:41

технологии пенсия Nvidia общество курс В новом Linux 7.1 обработка NTFS переносится в пространство ядра. FUSE уходит на пенсию?

Состоялся релиз стабильной ветки ядра Linux 7.1. Главное событие апдейта — полностью переписанная реализация файловой системы NTFS. Разработка драйвера заняла долгие четыре года, но результат того стоит: разработчики наконец-то реализовали полноценную и стабильную поддержку записи на уровне ядра.

26.07 / 06:02

книги самит Эксперт интересное квартира Как освежить кухню за копейки – простые трюки от дизайнера

Даже в съёмной квартире можно легко создать уютную кухню, заменив стандартные ручки шкафов и использовав временные клейкие молдинги.

26.07 / 05:30

происшествия наука история захоронения В Словакии обнаружили римский лагерь с останками солдат (фото)

На юго-западе Словакии археологи обнаружили обширный римский военный лагерь, который, вероятно, использовался легионами императора Марка Аврелия во время Маркоманских войн в конце II века нашей эры. Особое внимание исследователей привлекли многочисленные поспешные захоронения военных, найденные во рвах, колодцах и неглубоких могилах.

26.07 / 05:00

продукты технологии курс «Яндекс» запустил бесплатный онлайн-курс по работе с ИИ для волонтёров и сотрудников НКО

«Яндекс» при поддержке образовательного проекта To Dual запустил бесплатный онлайн‑курс по работе с ИИ для волонтёров и сотрудников НКО. В нём рассказывают, какие задачи фонды могут поручить нейросетям и как эффективно применять инструменты на базе ИИ — от чата с «Алисой AI» до ИИ‑агентов, отвечающих на типовые вопросы пользователей. Эти знания помогут НКО автоматизировать рутинные процессы и уделять больше времени благополучателям, считают в компании. Курс доступен на «Яндекс Практикуме», его можно пройти в любое время и в любом темпе.

26.07 / 05:00

люди экономика общество google Глава Google DeepMind: ИИ не отменяет необходимость технического образования — наоборот, оно становится ещё ценнее

Генеральный директор Google DeepMind Демис Хассабис считает, что стремительное развитие ИИ меняет правила в IT‑индустрии, но не делает фундаментальное техническое образование менее важным. Напротив, специалисты с глубокими знаниями в области информатики и инженерии смогут использовать ИИ‑инструменты значительно эффективнее остальных, считает управленец, слова которого приводит Business Insider.

26.07 / 04:47

продукты здоровье продукты питания Здоровье и красота полезные продукты Виноград для здоровья – причины добавить ягоду в рацион

Чтобы получить максимум пользы без резких скачков сахара в крови, сочетайте виноград с источниками белков или жиров.

26.07 / 04:11

связь технологии токен Nano Arduino представила модули Modulino для расширения I²C-сетей и управления моторами

Arduino расширила линейку компактных модулей Modulino тремя платами: Hub, Extender и Motors. Они предназначены для прототипирования роботов, систем автоматизации и распределённых сетей датчиков.

Лента новостей

На главную страницу