Безопасность ИИ-агентов OpenAI: защита от утечек данных через URL

Эпоха ИИ-агентов, которые послушно пересказывали чаты, заканчивается. Сегодня они — активные исполнители, открывающие страницы и переходящие по ссылкам. Однако этот дрейф в сторону полной автономности открывает изящный путь для воровства корпоративных секретов: так называемую эксфильтрацию данных через URL. По оценке инженеров OpenAI, злоумышленникам даже не нужно заставлять модель «проговориться» в чате. Достаточно спровоцировать агента на фоновую загрузку специально сформированной ссылки, где конфиденциальная информация зашита прямо в параметры запроса. Как только запрос уходит, данные мгновенно оседают в логах сервера атакующего.

Бесполезность белых списков и фильтров

Традиционная оборона в духе «доверенных доменов» в мире LLM работает из рук вон плохо. В OpenAI резонно отмечают, что легитимные сайты часто поддерживают редиректы. Это позволяет хакеру начать цепочку с респектабельного домена, который пройдет любую проверку, а затем перенаправить агента на вредоносный ресурс. Если защитный экран проверяет только первую точку входа, грош ему цена. Более того, попытка загнать интернет в жесткий список разрешенных сайтов убивает саму суть ИИ-ассистента, превращая его в кастрированный поисковик по корпоративному справочнику.

«URL — это не просто адрес, это контейнер для данных. Атакующий может попытаться обманом заставить модель запросить ссылку, которая тайно содержит в себе ваши секреты».

По мнению команды Альтмана, пора признать: бинарное доверие к доменам мертво. На смену приходит верификация конкретных URL-адресов. Это прямой ответ на проблему «тихих утечек», когда через инъекции в веб-контент агент принудительно выгружает заголовки документов или почтовые адреса пользователей под видом безобидной загрузки превью или картинки.

Стратегия Public-Only: верификация через индекс

Чтобы купировать угрозу, OpenAI внедрила протокол, который можно назвать «доверяй только публичному». Система теперь опирается на независимый веб-индекс — краулер, аналогичный поисковому, который видит только то, что доступно всем. Прежде чем агент автоматически перейдет по ссылке, он проверяет, зафиксировал ли этот краулер данный адрес ранее. Если URL существует в публичном поле независимо от сессии пользователя, он считается безопасным. Если же адреса в индексе нет, система бьет по рукам: либо требует ручного одобрения пользователя, либо блокирует автоматическую загрузку.

Этот подход радикально меняет среду исполнения. Теперь ChatGPT будет выводить предупреждение, если не может подтвердить публичный статус ссылки, прямо указывая, что запрос может содержать данные из вашего диалога. По сути, OpenAI делает ставку на архитектуру Hard Trust — приоритет проверяемости над вероятностным «вроде бы безопасно».

Внедренный 28 января 2026 года механизм тотальной проверки каждого автоматически запрашиваемого URL против независимого индекса — это признание того, что автономность агентов в закрытых корпоративных сетях пока остается под вопросом. Для бизнеса это означает компромисс: либо безопасность и изоляция в песочнице, либо риск того, что любой клик в интранете станет подарком для внешнего наблюдателя. На наш взгляд, это логичный шаг — лучше напугать пользователя лишним уведомлением, чем потом объяснять совету директоров, как коммерческая тайна утекла через фоновый рендеринг ссылки.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИКибербезопасностьOpenAI

Тихие утечки: как OpenAI защищает ИИ-агентов от кражи данных через URL

Бесполезность белых списков и фильтров

Стратегия Public-Only: верификация через индекс