Современные LLM-агенты демонстрируют впечатляющую многозадачность, но страдают от специфической формы «стратегической амнезии». В традиционном обучении с подкреплением (RL) модели прогрессируют за счет наград среды, однако напрочь игнорируют накопление универсальных стратегий. Каждая новая задача для них — чистый лист, а отсутствие модульности заставляет агента изобретать велосипед вместо использования библиотеки готовых навыков. Даже подход Skill Creator от Anthropic, автоматизирующий генерацию умений, остается по сути статичным: он завязан на вмешательстве человека и живет в отрыве от эволюции основной политики (policy). Проблема в десинхронизации: когда создание навыков и оптимизация политики разнесены, возникает риск конфликта, где старые методы начинают мешать обновленному «мозгу» агента.
The RL-in-the-Loop Architecture
Исследователи представили ReSkill — фреймворк, который вшивает процесс создания навыков непосредственно в цикл RL-тренировки. Архитектура эксплуатирует групповую структуру алгоритма GRPO (Group Relative Policy Optimization). Вместо того чтобы просто прогонять сценарии, ReSkill тестирует конкурирующие версии одного и того же навыка внутри одной группы прогонов (rollouts). Это позволяет проводить прямое сравнение производительности различных итераций в реальном времени. Каждый такой прогон выполняет тройную функцию: поставляет градиенты для оптимизации политики, служит диагностическим инструментом для поиска ошибок и выступает полигоном для обкатки новых навыков.
ReSkill синхронизирует эволюцию навыков с обучением политики, тестируя конкурирующие версии в едином тренировочном цикле.
В отличие от методов «слепой доставки», где внешние знания навязываются модели без должной проверки, ReSkill использует механизм диагностики на основе утверждений (assertions). Система анализирует прошлые провалы и предлагает точечные триггерные правки. Для управления этим зоопарком навыков применяется томпсоновское семплирование с адаптивным дисконтированием. Этот математический подход позволяет балансировать между поиском новых решений и эксплуатацией проверенных, гарантируя, что библиотека навыков растет со скоростью, которая помогает, а не тормозит развитие базовой политики.
Performance Gains and Constraints
Методологически ReSkill доказал свое превосходство над классическими методами RL с памятью на множестве доменов. Самые заметные скачки эффективности зафиксированы на задачах, которые агент ранее не видел. Это подтверждает, что навыки действительно переносимы, а не просто подогнаны под обучающую выборку. Жизненный цикл навыка в ReSkill динамичен: они автоматически создаются, тестируются, дорабатываются и безжалостно удаляются, если перестают приносить пользу. Такая коэволюция предотвращает «стратегический дрейф» — ситуацию, когда база знаний агента стагнирует, пока его логика принятия решений уходит далеко вперед.
Однако за автономность приходится платить ресурсами. Хотя использование GRPO добавляет лишь незначительные накладные расходы, итеративная природа томпсоновского семплирования и требование к групповым прогонам создают определенное давление на вычислительные мощности. Эффективность системы напрямую зависит от качества наград среды: ReSkill лучше всего чувствует себя там, где успех можно измерить четко и прозрачно. Это важный сдвиг парадигмы: от ручного управления знаниями мы переходим к системам, где агент сам отвечает не только за выполнение задачи, но и за написание (и своевременную правку) собственной инструкции по эксплуатации.
Переход от статичных библиотек к самоочищающимся экосистемам навыков — это необходимый шаг к созданию автономных агентов, способных осваивать гетерогенные среды без надсмотрщика. Способность системы к самодиагностике через анализ отказов делает ее жизнеспособной в долгосрочной перспективе, хотя она все еще остается заложницей плотности сигналов обратной связи от среды. В конечном счете ReSkill предлагает архитектурное решение проблемы масштабируемости, превращая каждый провал не в повод для перезагрузки, а в кирпич для фундамента будущих побед.