OpenAI наконец-то признала очевидное: нынешние языковые модели катастрофически наивны. Проблема в том, что GPT до сих пор воспринимает инструкции разработчика и сомнительные вбросы из интернета как равнозначные команды. Как следует из отчета команды Эрика Уоллеса и Лилиан Венг, эту архитектурную «демократию» пора сворачивать. Решение — концепция Instruction Hierarchy, превращающая системный промпт в незыблемый закон, а пользовательский ввод — в бесправный субстрат.

Технически это не очередная «заплатка» или фильтр, а фундаментальная перепрошивка поведения. Исследователи разработали метод генерации данных, который приучает модель игнорировать любые низкопривилегированные команды, если они идут вразрез с базовыми правилами. На тестах с GPT-3.5 такой подход превратил системный промпт в «абсолютного монарха»: модель сохраняет устойчивость даже перед атаками, которых она никогда не видела в процессе обучения. При этом общая адекватность ответов и производительность не пострадали — редкий случай, когда за безопасность не приходится платить когнитивным налогом.

Для техлидов и архитекторов это долгожданный переход от «вероятностной безопасности» к архитектурной защите. До сих пор интеграция агентов с корпоративными API была хождением по минному полю: любой внешний текст мог перехватить управление инструментом. Теперь же иерархия данных позволяет строить автономные системы, работающие с конфиденциальной информацией, без параноидального страха, что случайный инъекционный промпт заставит агента слить базу данных или обнулить баланс.

Это обновление исправляет главную родовую травму LLM-развертываний — уязвимость перед манипуляцией. Для бизнеса это означает зеленый свет на расширение полномочий ИИ-агентов. Ожидайте, что подобная жесткая кастовая система промптов станет обязательным стандартом для любого продакшн-решения, где на кону стоят реальные деньги и доступ к инфраструктуре.

Безопасность ИИБольшие языковые моделиКибербезопасностьИИ-агентыOpenAI