Эра автономных финансов откладывается на неопределенный срок. Отчет BankerToolBench, подготовленный Handshake AI совместно с Университетом Макгилла, наглядно демонстрирует пропасть между маркетинговыми обещаниями и суровой реальностью индустрии. В ходе исследования 500 инвестиционных банкиров из таких гигантов, как Goldman Sachs и JPMorgan, оценивали работу передовых моделей, включая GPT-5.4 и Claude Opus 4.6. Вердикт неутешителен: ни один результат из выборки не прошел внутренний фильтр «готов к отправке клиенту».

Вместо синтетических тестов модели проверяли в условиях реальных рабочих процессов, на которые у младших аналитиков обычно уходит от 5 до 21 часа — от парсинга отчетности SEC до построения динамических моделей в Excel. И хотя половина опрошенных банкиров готова использовать ИИ для создания черновых набросков, они категорически отвергают его в роли автономного агента. Причина кроется в фидуциарной ответственности: разрыв между «болванкой» и финальным продуктом слишком велик, а риски для репутации и финансового состояния компании — фатальны.

Технологическая деградация особенно заметна при переходе от простых диалогов к решению прикладных задач. Согласно данным BankerToolBench, выполнение одной сложной операции может требовать до 539 вызовов модели, при этом 97% активности приходится на исполнение программного кода. Лидер рынка GPT-5.4 провалил почти половину из 150 контрольных критериев, а Gemini 2.5 Pro не справилась ни с одним. Ирония ситуации в том, что Claude Opus 4.6 выдает внешне безупречные отчеты, однако внутри Excel-моделей скрываются фундаментальные ошибки, делающие их непригодными для прохождения аудита.

В индустрии с высокими ставками экономика ошибки превращает внедрение больших языковых моделей (LLM) в сомнительную затею. Если старший менеджер вынужден проверять каждую формулу, чтобы избежать юридических последствий, стоимость верификации галлюцинаций ИИ превышает затраты на содержание живого аналитика. При требовании выдать три стабильно верных результата подряд вероятность успеха GPT-5.4 падает до жалких 13%. Для бизнеса это означает одно: нынешние модели — неплохие ассистенты для мозгового штурма, но катастрофически ненадежные сотрудники там, где требуется математическая точность. Пока ИИ не научится проходить 100% технических проверок, обещанный возврат инвестиций от автоматизации останется лишь красивой цифрой в презентациях вендоров.

ИИ в финансахИИ в бизнесеБольшие языковые моделиИнвестиции в ИИBankerToolBench