Главный барьер при внедрении автономных агентов в ритейл — это пропасть между лингвистической гибкостью и реальным выполнением задач. Как отмечают Рахул Баджадж и команда Owlgebra-ai, красноречие модели теряет всякий смысл в тот момент, когда клиенту требуется найти кабель USB-C строго дешевле 25 долларов с доставкой в течение двух дней. Традиционное дообучение на размеченных данных (SFT) заставляет нейросети имитировать человеческие диалоги, но, согласно исследованию Ecom-RLVE, этот подход пасует перед комбинаторной сложностью реальной коммерции — от ограничений каталога до многоэтапных транзакционных процессов.

Чтобы решить эту проблему, разработчики отказались от практики «LLM-as-a-judge», при которой одна модель субъективно оценивает другую. Вместо этого они внедрили обучение с подкреплением на основе верифицируемых вознаграждений (RLVR). Теперь критически важно не то, насколько вежливым кажется агент, а вызвал ли он поиск по каталогу и корректно ли инициировал процедуру возврата. Архитектура Ecom-RLVE-GYM переносит концепцию проверяемых сред (RLVE-Gym) из области решения простых головоломок вроде судоку в многоходовый мир инструментов и API.

Система включает восемь верифицируемых сред: от поиска товаров и сборки корзины до обработки возвратов и планирования сложных наборов покупок. Вместо ручной разметки используется процедурная генерация задач и 12-осевая система оценки сложности. Это позволяет алгоритмически проверять каждый результат — например, соответствует ли собранная корзина скрытой эталонной цели. В Owlgebra-ai применили метод DAPO на модели Qwen 3 8B в течение 300 итераций. Результаты демонстрируют, что масштабирование среды и адаптивная сложность эффективно способствуют выполнению реальных агентских задач.

Для бизнеса переход к процедурной генерации задач и алгоритмическим наградам означает возможность создания измеряемых инженерных решений: рынку больше не нужны модели, которые просто рассуждают о покупках. Необходимы системы, чьи действия поддаются строгой проверке. Проект, зародившийся на хакатоне Pytorch OpenEnv, продолжает развиваться. Разработчики доказывают: компактных моделей на 8 миллиардов параметров может быть достаточно для обработки сложных запросов, если тренировать их в структурированных симуляциях, а не просто обучать имитировать действия человека.

ИИ-агентыИИ в бизнесеДообучение моделейEcom-RLVE