Бенчмарк BTF-2: новый стандарт ИИ-прогнозирования в бизнесе

Проблема «черного ящика» в ИИ-прогнозировании давно стала притчей во языцех: стандартные рейтинги фиксируют лишь точность попадания, но совершенно не объясняют, как именно модель пришла к результату. Команда FutureSearch под руководством Тома Липтая и Дана Шварца представила бенчмарк Bench to the Future 2 (BTF-2), призванный устранить эту информационную слепоту с помощью методологии пасткастинга.

Идея проста и изящна: исследователи «заморозили» массив из 15 миллионов документов, воссоздав информационный вакуум октября 2023 года. Это исключает утечку данных из будущего — агент оперирует только теми сведениями, которые были доступны на тот момент, и пытается предсказать события, ставшие для нас уже историей.

Тестирование на 1417 сложнейших вопросах из области макроэкономики и дипломатии показало, что умение находить информацию и умение рассуждать — это принципиально разные навыки. Как отмечают Джек Уайлдман и Никос И. Боссе, топовые большие языковые модели часто терпят неудачу именно на этапе формирования суждений (judgment). Они мастерски собирают факты, но пасуют, когда требуется оценить реальные мотивы политиков или спрогнозировать исход институциональных конфликтов. Модели склонны доверять официальным декларациям, а не логике политических процессов. В результате была создана гибридная система, которая за счет выстраивания глубоких цепочек рассуждений обошла одиночные передовые модели на 0,011 балла по шкале Брайера (при этом чувствительность теста позволяет фиксировать разницу даже в 0,004 балла).

Для бизнеса эти результаты стали своего рода «холодным душем». Выяснилось, что превосходство гибридных систем обеспечивает не объем параметров, а премортем-анализ «слепых пятен» и учет сценариев типа «черный лебедь». Это четкий сигнал рынку: для корпоративного стратегирования важна не общая точность модели, которая может оказаться случайной галлюцинацией, а верифицируемая цепочка выводов. Если агент не способен объяснить, почему лидеры могут саботировать собственные планы, его прогноз не надежнее подбрасывания монетки. Внедрение ИИ в стратегическое планирование теперь требует аудита не конечных ответов, а самого процесса мышления — контроля над тем, как именно алгоритм интерпретирует человеческие стимулы и системные риски.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыИИ в бизнесеБольшие языковые моделиFutureSearch