Статические бенчмарки для проверки стратегического мышления окончательно себя исчерпали, создавая у бизнеса опасную иллюзию надежности. По мнению Вартана Шадаревяна и группы исследователей из Принстона и Google, классические тесты на базе покера или игры «Дипломатия» больше не отражают готовность нейросетей к хаосу реальных рынков. Эти среды уязвимы для утечки данных: модели часто просто воспроизводят заученные паттерны из обучающей выборки, имитируя логику там, где на деле работает лишь память. Для технологических лидеров это тревожный сигнал: высокий балл в стандартном рейтинге гарантирует ровно нулевую эффективность в непредсказуемом финансовом цикле.

Чтобы закрыть эту брешь в безопасности, разработчики представили GENSTRAT — фреймворк для процедурной генерации дуэльных карточных игр с нулевой суммой. Как следует из препринта исследования, этот метод позволяет буквально «на лету» создавать бесконечное количество уникальных стратегических сред. Проверка идет по шести осям, включая чувствительность к информации, моделирование действий оппонента и управление рисками. Такой подход обнажает точки отказа даже у топовых больших языковых моделей. Более того, система вводит метрику «зазубренности» (jaggedness) для выявления резких скачков производительности между схожими сценариями — критический показатель для моделей, претендующих на управление реальными активами.

Результаты турнира из 36 000 матчей доказывают, что общая «сила» модели — метрика лукавая. Хотя свежие флагманы в среднем показывают лучшие результаты, данные выявили у них пугающую локальную волатильность. При почти идентичных средних баллах одни агенты ведут себя стабильно, а другие демонстрируют радикальную хрупкость при малейшем смещении условий из зоны комфорта. Полагаться на средний результат — значит игнорировать риск того, что агент, блестяще проявивший себя в одну секунду, станет опасно неадекватным в следующую.

Анализ подтвердил, что две из трех ведущих моделей на рынке значительно волатильнее конкурентов. В условиях живого, постоянно меняющегося рынка слепая вера в место в рейтинге становится авантюрой: без глубокого аудита адаптивности выпуск автономных агентов в свободное финансовое плавание остается игрой в рулетку.

Большие языковые моделиИИ-агентыИИ в бизнесеБезопасность ИИИИ в финансах