Попытки измерить эффективность нейросетей одним числом — так называемым скалярным показателем успеха (task-success scalar) — окончательно себя изжили. В сферах страхования и финтеха высокая точность «на бумаге» всё чаще маскирует системные риски, способные похоронить бизнес под регуляторными штрафами. Как отмечают Васундра Шринивасан и её коллеги в недавнем препринте на arXiv, в таких процессах, как андеррайтинг или урегулирование убытков, агент может выдать верный результат на основе ошибочной логики или в прямом противоречии с законом. Когда решение переходит из лаборатории в реальную эксплуатацию, агрегированная точность становится бесполезной: она не отражает того, насколько система соответствует жестким институциональным стандартам.

Чтобы устранить это слепое пятно, группа исследователей предложила фреймворк из четырех осей выравнивания (alignment). Поведение агента теперь раскладывается на фактологическую точность (FRP), когерентность рассуждений (RCS), реконструкцию комплаенса (CRR) и калиброванный отказ от выполнения задачи (CAR). Последняя метрика критически важна: она измеряет способность системы вовремя «промолчать» и признать нехватку данных. Результаты тестирования на бенчмарке LongHorizon-Bench, имитирующем работу страховых компаний и оценку кредитоспособности, выявили неприятные детали: системы на базе поиска (retrieval-based) систематически проваливаются в фактологической точности, а сложные архитектуры с жесткой схемой страдают от избыточности («налога на инфраструктуру»). Иронично, что обычное суммарирование с промптом на сохранение фактов оказалось эффективнее изощренных систем памяти, что опровергло первоначальные прогнозы самих авторов.

Бизнес-вердикт для руководителей: пришло время переписать протоколы аудита ИИ, заменив «процент успеха» на метрики CRR и CAR. Тот факт, что все шесть протестированных архитектур не смогли адекватно реализовать право на отказ от задачи, указывает на гигантский пробел в «процессуальном выравнивании» (decisional alignment). Современные коммерческие модели пока не научились вовремя говорить «нет». Внедрение стандарта CRR (реконструкция комплаенса) становится обязательным, если вы не хотите, чтобы ваш автономный агент оказался неспособен внятно обосновать логику своих решений регулятору при первой же проверке.

ИИ-агентыИИ в бизнесеРегулирование ИИИИ в финансах