Фундаментальный конфликт корпоративной автоматизации заложен в самой природе больших языковых моделей: они оптимизированы под лингвистическую вероятность, а не под жесткие протоколы REST API. Исследователи из Centific подтверждают то, что архитекторы решений знают на горьком опыте: этот мезальянс целей приводит к «тихим» сбоям. Агенты пропускают обязательные поля, галлюцинируют несуществующими инструментами или просто обрывают цикл после первого же чтения данных. LLM может виртуозно рассуждать о Шекспире, но пасует перед вложенными аргументами Jira REST v3 или схемами Confluence v2, поскольку предсказание следующего токена в принципе не учитывает строгость эндпоинтов. Для технического директора цена такой «креативности» при создании тикета — сломанный рабочий процесс, требующий ручного исправления.
Архитектура верифицируемых наград
Чтобы навести порядок в этом хаосе, Картикея Адитья Висса и команда Centific предложили использовать RLVR (Reinforcement Learning from Verifiable Rewards) — механизм «принудительной логики». В отличие от классического обучения с подкреплением, которое полагается на субъективные оценки людей или капризных нейросетей-судей, RLVR задействует программные чекеры. Они проверяют цепочку вызовов инструментов напрямую. Исследователи создали пять синтетических сред, имитирующих рабочие процессы Atlassian, где награда за вызов рассчитывается исходя из соответствия схеме API. Такая методология превращает взаимодействие с софтом в верифицируемую логическую головоломку, а не в упражнение по написанию текста, попутно штрафуя модель за дублирование вызовов или пропуски параметров.
RLVR отказывается от моделирования вознаграждений в пользу программных проверок везде, где корректность можно измерить кодом.
Оценивая ответы моделей через эти жесткие фильтры, Centific обучает агентов в закрытом цикле без участия человека или живого API. В исследовании использовали метод оптимизации GRPO (Group Relative Policy Optimization) для дообучения моделей Qwen3-1.7B и Qwen3.5-4B. Акцент сместили с последовательности токенов на результат. Данные показывают, что такой подход радикально меняет способность малых моделей справляться с тяжелыми схемами данных, которые обычно становятся для них непреодолимым барьером.
Экономика точности против масштаба
Результаты экспериментов намекают на важный сдвиг: для корпоративных агентов соблюдение протокола важнее, чем размер модели или глубина контекстного окна. В бенчмарках Centific политика, обученная через RL, подняла среднюю награду за создание страниц в Confluence с базовых 0,35 до идеальных 1,00 для модели 4B. В четырех сценариях из пяти RLVR стабильно выводил точность в диапазон 0,95–1,00. Это качественный скачок: модель перестает угадывать примерные очертания запроса и начинает исполнять его с технической безупречностью.
Обученная через RL политика поднимает среднюю награду с диапазона 0,35–0,92 до почти абсолютных 0,95–1,00.
Этот Proof of Concept сигнализирует о закате эпохи универсальных гигантов в узких бизнес-задачах. Вместо того чтобы запускать дорогую GPT-4 в надежде, что она правильно угадает структуру JSON для подзадачи в Jira, бизнес может использовать компактные специализированные модели, натасканные через RLVR. Фокус смещается с того, сколько модель «знает», на то, насколько беспрекословно она подчиняется диктатуре API. Однако масштабирование остается вызовом: ручное создание верификаторов для каждого корпоративного эндпоинта — процесс трудоемкий. Пока RLVR отлично лечит галлюцинации в стерильных условиях Atlassian, но реальная эксплуатация в гетерогенных корпоративных средах, где рабочие процессы менее предсказуемы, остается открытым инженерным вопросом. Разумным шагом будет внедрение этого подхода в самые жесткие и высоконагруженные API-задачи, прежде чем доверять алгоритмам полную автономию.