CODESKILL: Эволюция ИИ-агентов в разработке ПО

Современные AI-агенты в разработке страдают «синдромом золотой рыбки»: каждая задача по отладке или рефакторингу для них — как первая в жизни. Огромные объемы данных о прошлых запусках (траектории) оседают мертвым грузом в логах, а попытки засунуть их обратно в модель обычно сводятся к раздуванию контекстного окна бесконечными примерами. Как отмечают Янчжоу Ли и группа исследователей из Наньянского технологического и Чжэцзянского университетов, такие механизмы памяти не только транжирят токены, но и мешают агенту сфокусироваться на главном.

Решением стал фреймворк CODESKILL, который переводит работу с опытом из режима «складского учета» в формат управления живой библиотекой навыков. Вместо того чтобы просто хранить историю эпизодов, система дистиллирует успешные сценарии в компактные процедурные модули. На наш взгляд, это важный сдвиг: знания здесь не просто лежат, а проходят через фильтр обучения с подкреплением (RL). CODESKILL сам решает, какие навыки добавить, какие дубликаты объединить, а какой бесполезный «мусор» выкинуть, используя обратную связь от зафиксированного исполнителя (downstream agent).

Главное в архитектуре CODESKILL

Дистилляция опыта: превращение сырых логов выполнения в структурированные исполняемые навыки. Оптимизация через RL: автоматический отбор наиболее эффективных паттернов решения задач. Масштабируемость: отказ от раздувания контекста в пользу компактной библиотеки процедур. Универсальность: успешная работа на бенчмарках SWE-bench и Terminal-Bench.

«Время „забивания“ контекста примерами уходит. Будущее за динамическими библиотеками, где агент эволюционирует с каждым закрытым тикетом».

Цифры подтверждают, что архитектурный скепсис в отношении простых промптов оправдан. На тестах EnvBench, SWE-Bench Verified и Terminal-Bench 2 система CODESKILL показала рост среднего успеха (pass rate) на 9,69 по сравнению с базовой моделью без навыков. Более того, она обошла продвинутые системы памяти на 4,01 пункта. Это прямой сигнал рынку: пора переходить к более зрелым методам управления знаниями в ИИ.

Для CTO и архитекторов это означает фундаментальную смену парадигмы в DevOps и поддержке legacy-кода. Вместо одноразовых промптов мы получаем автономные системы, способные к накоплению экспертизы. Ожидайте, что подобная «процедурная память» вскоре вытеснит примитивные RAG-решения и станет стандартом для промышленных AI-агентов. Очевидно, что победит тот, чей агент умеет учиться на своих ошибках, а не просто повторять их за ваши деньги.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыМашинное обучениеАвтоматизацияДообучение моделейCODESKILL

CODESKILL: Как ИИ-агенты перестают забывать опыт и начинают учиться кодингу