Шестьдесят лет назад IBM Deep Blue обыграл Гарри Каспарова. С тех пор индустрия ИИ, похоже, продолжает гнаться за теми же призраками машинного превосходства. Шахматы, Го, Jeopardy!, GPT-4, пишущий стихи лучше старшеклассника – всё это впечатляет, но какой ценой? Победы над человеком в узкоспециализированных задачах редко имеют отношение к реальному бизнес-контексту. Мы любуемся красивой картинкой превосходства, забывая, что ИИ в жизни — это не турнир по шашкам, а сложная операционная система. Здесь важна не скорость хода, а интеграция в рабочие процессы и командная работа.
Даже самые продвинутые современные бенчмарки, такие как SuperGLUE, пытаются имитировать сложные задачи, но страдают от ключевой болезни: оценивают модели в вакууме. Представьте команду врачей, где один гений ставит диагнозы по снимкам, но не может объяснить свои выводы коллегам или встроить их в общую историю болезни. Или инженера, пишущего безупречный код, но неспособного работать в паре с другим программистом. Именно так часто выглядят ИИ-системы, побеждающие в академических состязаниях. Их оценивают на основе изолированных тестов, игнорируя факт, что в реальном мире ИИ должен быть частью команды, взаимодействовать с людьми, учитывать неопределённость и адаптироваться к меняющимся условиям. Практика показывает: даже системы, официально признанные «умнее» человека, могут требовать дополнительных затрат времени и ресурсов. Яркий пример — некоторые AI-ассистенты для врачей, одобренные FDA. Вместо экономии времени, радиологов заставляли разбираться в выводах машины, полезных лишь в вакууме.
Текущий подход к оценке ИИ — это игра в цифры, ведущая к многомиллиардным убыткам. Компании, полагающиеся на такие бенчмарки, совершают две фатальные ошибки. Первая — неверные инвестиции. Закупка дорогих ИИ-решений, которые на бумаге выглядят прорывно, но в реальности не приносят ожидаемого результата, потому что не вписываются в существующие рабочие процессы. Вспомните, как многие компании бросились внедрять генеративные модели для контента, получив в итоге ворох малополезных текстов, требовавших доработки. Вторая ошибка — упущенная выгода. Пока одни тратят бюджеты на «победителей» из устаревших тестов, другие, смотрящие дальше, начинают строить системы оценки, ориентированные на реальное взаимодействие человека и машины. Исследователи из MIT и других университетов, например, активно разрабатывают методики, оценивающие ИИ в контексте совместной работы с человеком, анализируя не только результат, но и процесс его достижения.
Почему это важно: бизнес-лидеры, принимающие решения об инвестициях в ИИ, должны понимать, что старые метрики — прямой путь к провалу. Когда вендор демонстрирует вам победу своей модели над человеком в стандартном тесте, спросите: как эта модель интегрируется в наш рабочий процесс? Как она будет взаимодействовать с нашими сотрудниками? Каковы реальные, измеримые бизнес-результаты, а не просто процент точности в изолированной задаче? Игнорирование этих вопросов уже привело к миллиардным потерям и подорвало доверие к ИИ. Если вы не пересмотрите свои критерии оценки, рискуете остаться у разбитого корыта, пока конкуренты выстраивают реальные, работающие ИИ-решения, основанные на человеко-ориентированных метриках.