Бенчмарк Math Takes Two: как проверить логику и мышление ИИ

Дискуссия о том, понимает ли большая языковая модель (LLM) математику или просто жонглирует статистическими паттернами, перешла в фазу открытого конфликта с существующими метриками. Традиционные тесты переполнены символьными задачами, решения которых модели давно заучили на миллиардах примеров из обучающих выборок. Как отмечает Сэмюэл Оливер Купер и его команда в препринте на arXiv, решение миллиард первой задачи по математическому анализу — это акт памяти, а не мышления. Чтобы вскрыть эту имитацию, исследователи представили бенчмарк Math Takes Two, который лишает нейросети «костылей» в виде готовых формул.

Суть эксперимента заключается в том, что два агента должны сформировать абстрактные концепции с нуля через коммуникацию, не имея предварительных общих математических знаний. По задумке Купера, математический интеллект должен проявляться в способности систем договариваться и создавать собственные символьные протоколы для решения визуально обоснованных задач. Это моделирует гипотезу о том, что человеческое познание развивалось параллельно с потребностью в точной передаче данных. Если модель способна «изобрести» логику для устранения информационного разрыва, она демонстрирует реальное мышление, а не просто копирует синтаксис.

Для бизнеса этот переход от «заучивания» к совместному рассуждению (multi-agent reasoning) критически важен. Главная проблема текущего внедрения ИИ в корпоративном секторе — ошибки в нестандартных ситуациях, когда модель имитирует «вид» правильного ответа вместо того, чтобы вывести его из логики процесса. В сложных логистических или финансовых цепочках, где нет готовых шаблонов, слепое доверие к памяти модели ведет к галлюцинациям. Способность агентов самостоятельно вырабатывать логические фреймворки в реальном времени — единственный верифицируемый путь к надежности.

На наш взгляд, Math Takes Two позволяет отсеять системы, работающие как продвинутые поисковики, и выявить инструменты, способные решать логические задачи «нулевого дня». Для руководителей это означает переход к ИИ как к полноценному партнеру: если ваша система может сама создать протокол для решения уникальной, не прописанной в обучающей выборке проблемы, вы больше не ограничены рамками ее набора данных. Это и есть реальный барьер против галлюцинаций в операциях с высокими рисками.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектБольшие языковые моделиИИ-агентыИИ в бизнесе