Современные тесты для нейросетей застряли в прошлом: они заставляют модели жонглировать фактами, которые те и так усвоили в процессе обучения. Федерико Бьянки и его коллеги из Together AI в свежем отчете на Hugging Face справедливо отмечают, что популярные бенчмарки вроде HLE, GPQA и GAIA — это, по сути, проверка памяти, а не интеллекта. Главная проблема заключается в «загрязнении» данных: когда модель выдает правильный ответ, невозможно понять, действительно ли она строит логические выводы или просто цитирует фрагмент текста из интернета, на котором тренировалась. Индустрия давно нуждалась в фильтре, способном отсеять имитацию мышления от реального глубокого анализа.
Решением призван стать FutureBench — фреймворк, оценивающий способность автономных агентов прогнозировать события в науке, экономике и геополитике. Логика команды Together AI проста и изящна: невозможно обучить модель на данных, которые еще не существуют. FutureBench берет сценарии из реальных рынков предсказаний и актуальных новостных потоков, заставляя ИИ анализировать неопределенность и взвешивать вероятности «здесь и сейчас». Для бизнеса это означает переход от простого поиска информации к прикладной аналитической прогностике. Если агент не способен адекватно оценить рыночные тренды или риски внедрения технологий в реальном времени, его ценность для стратегического планирования стремится к нулю.
Разработчики бенчмарка, среди которых Джеймс Зоу и Клементина Фуррье, подчеркивают: бизнес-стратегия — это всегда ставка на будущее. Используя инструменты вроде smolagents для поиска «прогностического потенциала» в свежей прессе, FutureBench создает объективную и привязанную ко времени метрику качества. Речь идет не о магическом гадании, а о проверке того, как агент выстраивает причинно-следственные связи и ищет релевантные факты в хаосе текущих событий. Это жесткий экзамен на профпригодность для финтеха и риск-менеджмента, где цена ошибки в прогнозе слишком высока. Остается открытым лишь вопрос: смогут ли нынешние модели переиграть фундаментальную непредсказуемость мира или мы в очередной раз увидим лишь уверенные галлюцинации.