Пока индустрия тонет в маркетинговом шуме и бессмысленных бенчмарках, команда Google DeepMind решила навести порядок в терминологии. В своей работе «Измерение прогресса на пути к AGI: когнитивная таксономия» Шейн Легг и его коллеги предлагают перестать гадать на кофейной гуще и внедрить научную классификацию когнитивных способностей. На наш взгляд, это давно назревший шаг: текущие тесты превратились в соревнование по заучиванию наборов данных, а не в проверку реального интеллекта.
Вместо разрозненных задач DeepMind предлагает оценивать ИИ по десяти фундаментальным столпам, среди которых метапознание, исполнительные функции и социальный интеллект. Это не просто академическое упражнение — для бизнеса такой переход означает возможность прогнозировать автоматизацию целых когнитивных цепочек, а не отдельных функций генерации текста. Если модель не способна к планированию и самокоррекции (исполнительным функциям), ее внедрение в сложные бизнес-процессы обернется лишь ростом скрытых расходов на человеческий контроль.
Методология оценки становится жестче: DeepMind настаивает на трехэтапном протоколе с использованием скрытых наборов данных для исключения «загрязнения» (data contamination) и обязательным сравнением с репрезентативной выборкой живых людей. Чтобы доказать жизнеспособность подхода, компания запускает хакатон на платформе Kaggle, сосредоточившись на самых проблемных зонах — обучении и социальном взаимодействии. Руководителям и техдиректорам стоит присмотреться к этой рамке уже сейчас: оценка совокупной стоимости владения (TCO) при внедрении ИИ-агентов теперь напрямую зависит от того, насколько закрыты пробелы в их когнитивной архитектуре, а не от красивых цифр в стандартных тестах.