Современный стандарт обучения поисковых агентов напоминает попытку оценить качество футбольного матча исключительно по финальному счету. Траекторные награды (trajectory-level rewards) поощряют результат всей цепочки действий, фактически раздавая «кредиты доверия» авансом каждому промежуточному шагу. Исследователи из Пекинского университета почты и телекоммуникаций и компании Li Auto Inc. справедливо отмечают: такой подход не позволяет понять, какое именно действие привело к успеху, а какое стало пустой тратой ресурсов. В сложных задачах, где цепочка поиска растягивается на десятки итераций, равномерное распределение ценности превращает логику системы в непрозрачный «черный ящик».

Для решения проблемы Юйчэнь Лю и его команда представили метод Graph-Distance Contribution Reward (GDCR). Вместо того чтобы сжигать бюджет на бесконечное семплирование деревьев и симуляции для оценки каждого решения, GDCR переносит задачу в плоскость латентных графов. Здесь мир знаний представлен как граф сущностей и связей (ER-граф), а любая задача превращается в поиск пути к конкретному «узлу-ответу». Ценность каждого шага теперь измеряется физическим сокращением дистанции до цели. Это превращает хаотичное блуждание агента в математически выверенное движение к верифицируемому результату.

Главное в новом подходе

Переход от оценки итогового результата к измерению прогресса на каждом этапе. Использование графов сущностей и связей для математического обоснования действий. Снижение вычислительных затрат за счет отказа от избыточного семплирования. Повышение интерпретируемости работы автономных агентов.

Эту механику интегрировали во фреймворк Step Advantage Policy Optimization (SAPO), который объединяет пошаговые графовые преимущества с итоговой оценкой траектории. Результаты тестов на четырех бенчмарках подтверждают: гибридный подход радикально повышает точность без раздувания операционных расходов, характерных для традиционных методов семплирования. Для бизнеса это означает долгожданный переход от «удачи по результату» к пошаговой подотчетности систем.

Оценка ИИ исключительно по финальному ответу — прямой путь к созданию дорогих и непредсказуемых систем, чьи ошибки невозможно диагностировать. Переход на графовые метрики позволяет оптимизировать саму логику поиска, делая автономные рабочие процессы в RAG-системах прозрачными и пригодными для аудита.

Вы получаете не просто ответ, а контролируемый и дешевый маршрут к нему, где каждый шаг обоснован сокращением дистанции до истины, а не случайным совпадением.

ИИ-агентыRAG и векторный поискМашинное обучениеСнижение затратLi Auto