Herculean: новый стандарт тестирования ИИ-агентов в финансах

Эпоха оценки финансового ИИ через примитивные викторины официально закрыта. Пока современные большие языковые модели с переменным успехом пересказывают отчеты о прибылях, консорциум из 50 исследователей под эгидой Йеля, Колумбийского университета и Университета Макгилла заявляет: статичные навыки не имеют ничего общего с профессиональным финансовым интеллектом. В препринте «Herculean: An Agentic Benchmark for Financial Intelligence» Сюэцин Пэн и его коллеги доказывают, что финансовый анализ ценен только тогда, когда он ведет к принятию обязательств в условиях неопределенности. Это требует перехода от болтливых моделей к автономным агентам, способным на сквозное выполнение рабочих процессов там, где каждое рассуждение обязано конвертироваться в действие.

Чтобы преодолеть пропасть между академическими тепличными условиями и суровой реальностью торгового зала, авторы представили Herculean — среду, моделирующую четыре ключевых сценария: трейдинг, хеджирование, рыночную аналитику и аудит. В отличие от существующих фреймворков вроде FinBen, которые зациклены на обработке статики, Herculean разворачивает полноценные среды на базе Model Context Protocol (MCP). Здесь агенту не просто «скармливают» PDF-файл, а выдают инструменты, задают динамику взаимодействия и критерии успеха. На наш взгляд, это правильный вектор: профессиональная работа — это не умение красиво цитировать годовой отчет, а координация разнородных задач и жесткое удержание логической связности на длинной дистанции. К разработке подключились тяжеловесы из NVIDIA и Технологического института Джорджии, чтобы убедиться: оценка охватывает именно многоэтапное планирование, необходимое для управления портфелем и комплаенса.

Результаты тестирования через Herculean должны заставить менеджеров хедж-фондов и банковских топов как минимум насторожиться. Если в трейдинге и аналитике фронтирные модели еще показывают сносные результаты — там, где доминирует распознавание паттернов, — то на хеджировании и аудите они буксуют. Как поясняет Сюэцин Пэн, эти категории требуют длительной координации и структурированной верификации. Одна логическая ошибка здесь ведет к катастрофическим финансовым потерям. Текущие агенты катастрофически часто теряют нить последовательности операций. Это подтверждает наш давний тезис: простое масштабирование контекста или параметров не лечит неспособность модели поддерживать абсолютную точность в реальном времени. Внешняя беглость речи лишь маскирует структурную импотенцию ИИ в вопросах дисциплинированной логики.

При всей своей строгости, Herculean в нынешнем виде — лишь первый шаг. Исследователи признают, что бенчмарк пока не учитывает социотехническую сложность устаревших банковских систем и все нюансы взаимодействия человека и ИИ-агента. Более того, Herculean диагностирует проблему галлюцинаций в критических расчетах, но не предлагает готовой «таблетки» для их устранения. Для индустрии это необходимый сеанс реальности: путь к автономному финансовому аналитику лежит через отказ от хайповых ярлыков в пользу архитектур, где надежность использования инструментов и верификация стоят выше разговорчивости. Если ваш проприетарный агент не может удержать состояние в течение четырехчасового цикла аудита, это не профессиональный инструмент, а финансовая мина замедленного действия.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ в финансахИИ-агентыБольшие языковые моделиNVIDIA

Тест на профпригодность: почему ИИ-агенты все еще опасны для больших финансов