Безопасность или некомпетентность: изъян бенчмарков ИИ-агентов

Современные бенчмарки для мобильных ИИ-агентов страдают системным изъяном: они принимают техническую беспомощность за этичное поведение. Исследователи из Tencent Hunyuan, Университета Цинхуа и Китайского университета Гонконга обнаружили, что «безопасность» многих моделей — это просто побочный эффект их плохого зрения. Как следует из препринта на arXiv, агент часто не совершает опасное действие (например, транзакцию без разрешения) не из-за встроенных моральных фильтров, а потому что банально не нашел нужную кнопку в интерфейсе.

Команда под руководством Чжэнъяна Тана и И Чжана представила PHONESAFETY — фреймворк, который тестирует ИИ в 700 критических сценариях внутри 130 приложений. Главное новшество здесь — жесткое разделение осознанного отказа от вредоносного действия и обычного технического сбоя при взаимодействии с интерфейсом. Методология изолирует момент принятия решения, заставляя систему выбирать между безопасным маневром (запрос подтверждения), прямым нарушением и ошибкой распознавания экрана. Проверка восьми популярных моделей показала, что их успех в навигации никак не связан с безопасностью. Напротив, большинство высоких оценок по части этики — это результат работы на визуально перегруженных экранах, где агент просто «сломался», не успев натворить бед.

Для бизнеса это тревожный сигнал: высокие показатели безопасности в текущих отчетах — фикция, которая испарится вместе с очередным обновлением системы компьютерного зрения. Как только ИИ научится безупречно считывать интерфейс, «безопасность через некомпетентность» исчезнет, обнажая реальную уязвимость систем. На наш взгляд, техническим директорам и архитекторам пора перестать верить общим цифрам в бенчмарках. Настоящая надежность проверяется только там, где модель полностью контролирует устройство, но сознательно выбирает не нажимать на «красную кнопку». Если ваш агент не потратил бюджет только потому, что не попал по иконке приложения — он не этичен, он просто временно профнепригоден.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИКомпьютерное зрениеTencent