Криптографическая безопасность ИИ-агентов: Certified Purity

Современные фреймворки вроде LangChain или AutoGPT в вопросах безопасности до сих пор полагаются на честное слово разработчика. В критических секторах — от финансов до медицины — это выглядит как попытка запереть сейф на бумажный скотч. Алан Л. Макканн из Mashin, Inc. в своем свежем исследовании доказывает: стандартный анализ графа импортов в виртуальной машине BEAM — это решето. По оценке Макканна, существует как минимум пять способов обойти такие «договорные» ограничения, включая динамическую диспетчеризацию и нативные интерфейсы (NIF). Для детерминированного противника эти лазейки превращают политики безопасности в пустую формальность.

Решение, которое предлагает Макканн, — архитектура Certified Purity («сертифицированная чистота»). Это переход от наивных конвенций времени выполнения к жестким структурным барьерам. Идея в том, чтобы сделать нарушение протокола физически невозможным на уровне архитектуры. Код компилируется в жестко ограниченную среду WebAssembly, где инструкции, способные вызвать побочные эффекты, попросту вырезаны. Как следует из отчета Mashin, Inc., на бинарный файл вешается криптографический сертификат чистоты — подписанное доказательство того, что исполнитель не совершает несанкционированных действий. Шлюз верификации отсекает любые «грязные» модули еще на входе в конвейер.

Технологически это развивает трехслойную модель Макканна (2026e), переводя управление из области «мы договорились так не делать» в область математических гарантий. Цифры подтверждают жизнеспособность метода: тесты на четырех типах исполнителей показали задержку верификации в ничтожные 39–42 мкс. Накладные расходы на выполнение составляют менее 0,4% от стандартного HTTP-запроса — цена за безопасность, которую бизнес наконец-то может себе позволить. При этом использование удаленной аттестации позволяет проверять «стерильность» кода даже в распределенных системах, где данные перемещаются между разными организациями.

Разумеется, Certified Purity — не магическая таблетка. Надежность системы все еще упирается в доверенную вычислительную базу (TCB) и требует фанатичного следования спецификациям WebAssembly. Однако это первый реальный шаг к созданию среды, где AI-агент технически не способен выйти за рамки полномочий, даже если очень захочет. Вместо того чтобы обучать модели этике, архитектура Макканна просто лишает их инструментов для «грехопадения».

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИКибербезопасностьMashin, Inc.

Сертифицированная чистота: как криптография обуздает ИИ-агентов