Об этом же в других СМИ

habr.com / 3 месяца назад

Фейковые рентген-снимки от ИИ научились обманывать не только врачей, но и другие нейросети

gagadget.com / 3 месяца назад

“Википедия” без AI: авторам запрещено использовать нейросети для написания и редактирования статей

habr.com / 3 месяца назад

Локальная Gemini на iPhone? Сделка с Google оказалась глубже, чем все думали

habr.com / 3 месяца назад

Пакет для вызова 100+ нейросетей крал ключи при запуске Python — под ударом тысячи разработчиков

focus.ua / 3 месяца назад

Внутри чудовища: ученый рассказал, как это, оказаться внутри торнадо (видео)

Больше по теме

13.03.2026 - 11:15 / habr.com

Исследование: нейросети оказались неспособны поддерживать долгосрочную эволюцию кодовой базы

Исследование Alibaba Group и Университета имени Сунь Ятсена в Гуанчжоу показало, что современные нейросети не могут поддерживать долгосрочную эволюцию кодовой базы, добавляя новые функции и не нарушая функциональность старых.

Исследователи разработали специальный тест для больших языковых моделей, чтобы изучить их способности поддерживать длительную эволюцию базы кодов и добавлять новые функции без нарушения деятельности ранее внесённых.

Они отмечают, что агенты уже продемонстрировали высокие возможности в автоматизации задач разработки программного обеспечения, таких как статическое исправление ошибок, что подтверждается такими бенчмарками, как SWE-bench. Однако в реальном мире разработка зрелого программного обеспечения обычно основана на сложных изменениях требований и долгосрочных итерациях функций — процессе, который не могут охватить статические парадигмы одноразового исправления. Чтобы преодолеть этот разрыв, исследователи представили бенчмарк SWE-CI на уровне репозитория, построенный на основе цикла непрерывной интеграции. Он включает 100 задач, каждая из которых соответствует в среднем истории эволюции, охватывающей 233 дня и 71 последовательный коммит в реальном репозитории кода. SWE-CI требует от агентов систематического решения этих задач посредством десятков раундов анализа и итераций кодирования.

Одновременно авторы работы подчеркнули наличие проблемы: все тесты, от HumanEval и LiveCodeBench до SWE-bench и Terminal-Bench, повсеместно используют протокол, основанный на моментальных снимках: агент получает одну задачу и создаёт одноразовое решение. В рамках этой парадигмы агент, который жёстко закодировал ненадёжное исправление, и агент, который пишет чистый, расширяемый код, могут пройти один и тот же набор

экономика история общество maybeelf Гуанчжоу

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

NASA объявила о создании базы на Луне за $20 миллиардов tech.onliner.by / 3 месяца назад

ИИ Cursor Composer 2 оказался переделанной Kimi K2.5 — причём без ведома её создателей habr.com / 3 месяца назад

Composer 2 оказался Kimi K2.5: Cursor не раскрыл базовую модель и нарушил лицензию habr.com / 3 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

09.07 / 01:21

технологии NASA предприятия доллар интересное НАСА начало финансировать оборудование для миссии SkyFall: три вертолета будут искать лед на Марсе

НАСА заключило контракт на разработку одного из ключевых элементов миссии SkyFall, запуск которой запланирован на 2028 год. Лаборатория реактивного движения НАСА (JPL) поручила американской компании Firefly Aerospace создать защитную оболочку космического аппарата, которая обезопасит его при входе в атмосферу Марса. Стоимость субконтракта составляет 13 млн долларов.

09.07 / 00:58

происшествия люди самит психология психика 5 обычных слов, которые выдают идеальный брак

Эти простые слова, звучащие в доме каждый день, помогают влюбленным справляться с трудностями и укреплять доверие на долгие годы.

09.07 / 00:31

реклама технологии Android Windows YouTube DuckDuckGo запускает функцию, которая блокирует большинство видеорекламы при просмотре YouTube

В браузере DuckDuckGo появилась возможность блокировать большинство видеорекламы, в частности при просмотре YouTube. Новшество уже начали внедрять для пользователей iPhone, Windows и macOS, а в ближайшее время оно станет доступным и на Android.

08.07 / 23:58

люди ученые здоровье общество человек Неожиданную особенность людей, живущих до 100 лет, назвали ученые

Исследование показало, что люди, доживающие до 100 лет, значительно чаще обладают одной важной чертой характера.

08.07 / 23:53

мода и стиль adobe google В Google Photos начали внедрять функцию Video Remix для редактирования видео по текстовым подсказкам

Google объявила о запуске новой функции Video Remix для сервиса Google Photos. Она позволяет редактировать и стилизовать уже сохраненные видео с помощью искусственного интеллекта Gemini Omni, который выполняет изменения на основе текстовых подсказок пользователя. Сначала новинка станет доступна для подписчиков тарифов Google AI Plus, Pro и Ultra в США и некоторых других странах.

08.07 / 23:53

Amazon Nvidia доллар Amazon готовит новую версию Alexa, которая сможет выполнять несколько задач по одному запросу

Amazon работает над новой версией голосового помощника Alexa под кодовым названием Moonraker. Как сообщает Business Insider со ссылкой на внутренние документы компании, проект предусматривает расширение возможностей Alexa+ для выполнения более сложных запросов, включающих несколько действий одновременно.

08.07 / 23:16

дети общество психология психика Психология и отношения 6 детских травм, из-за которых взрослые чувствуют себя ненужными

Как дефицит внимания в раннем возрасте формирует глубокое чувство одиночества, неуверенность в себе и страх заявлять о своих потребностях во взрослой жизни.

08.07 / 23:16

связь люди НАТО самит психология 5 привычек пар, которые способны пережить любой кризис

Эти ежедневные ритуалы помогают влюбленным преодолевать любые жизненные испытания и сохранять искреннюю близость на долгие годы.

08.07 / 22:40

технологии дефицит смарт-часы google Google Pixel Watch 5: инсайдер раскрыл цены, новые цвета и дату релиза смарт-часов

Google официально объявила дату проведения своей следующей презентации — мероприятие Made by Google состоится 12 августа (по американскому времени). Наряду со смартфонами Pixel 11, одной из главных новинок события станут умные часы Pixel Watch 5. Про конфигурации, цвета и цены новой линейки смартфонов инсайдер billbil-kun рассказал вчера, а сегодня он поделился информацией и о часах.

08.07 / 22:40

технологии президент конференция общество самит Nubia опередила всех: компания готовится представить первый в мире смартфон с интегрированным AI-агентом на уровне OS

Китайский бренд Nubia официально подтвердил, что до конца июля 2026 года представит флагманский смартфон нового типа. Вместо обычного набора отдельных функций искусственного интеллекта, устройство получит глубоко интегрированного на системном уровне AI-агента, способного выполнять сложные цепочки задач вместо пользователя.

Лента новостей

На главную страницу