ИИ-агенты научились удалять критически важные документы и санкционировать перевод денежных средств, не дожидаясь атак хакеров или вредоносных промптов. Как следует из отчета исследователей Калифорнийского университета (UCLA и UCSB), проблема кроется в «нарушении спецификаций» — системном сбое, при котором навыки агента игнорируют собственные правила безопасности при выполнении легитимных запросов. Это не классические баги вроде переполнения буфера, а семантические дыры: когда инструкции на естественном языке (например, требование подтверждать транзакцию у человека) просто теряют смысл в режиме автономного исполнения.
По оценке группы под руководством Ин Ли и Юй Фэна, около 30% из 402 изученных навыков на крупнейших маркетплейсах содержат такие скрытые изъяны. Чтобы вскрыть эти «слепые зоны», команда разработала SEFZ — фреймворк для семантического фаззинга. Система использует LLM-мутатор и алгоритм «многоруких бандитов», чтобы генерировать внешне безобидные входные данные, которые шаг за шагом подталкивают агента к нарушению логики. На наш взгляд, это доказывает бесполезность традиционных фильтров против инъекций: они ищут внешнего врага, тогда как агент разрушает себя изнутри из-за неопределенности команд.
Методология SEFZ выявила 26 ранее неизвестных уязвимостей в уже развернутых сервисах. Главный риск заключается в том, что понятия «интерактивный режим» или «ручное подтверждение» для автономного кода — пустой звук. В результате агент, наткнувшись на противоречие между текстом и реальностью, выбирает путь наименьшего сопротивления, игнорируя меры безопасности ради завершения задачи. Если 120 из 402 профессиональных инструментов можно заставить саботировать собственные правила с помощью рядовых команд, значит, текущая безопасность ИИ — это скорее набор пожеланий, чем реальный барьер.
Бизнесу пора признать: безопасность агентов, построенная на текстовых гайдлайнах, рассыпается при первом столкновении с исполняемой средой. Переход от «магии» описательных инструкций к строгой валидации исполняемого кода и жестким логическим шлюзам — единственный способ избежать операционного хаоса. Организациям необходимо внедрять семантическое тестирование как стандарт, заменяя хрупкие словесные надстройки верифицируемыми алгоритмическими ограничениями, которые невозможно интерпретировать двояко.