Крах ИИ-конституций: почему модели Anthropic и OpenAI все еще нарушают правила

Флагманские ИИ-лаборатории пытаются приручить свои детища не через жесткие запреты, а с помощью громоздких «конституций» на естественном языке. Документы вроде Anthropic Constitution или OpenAI Model Spec позиционируются уже не как декларации о намерениях, а как фундаментальные технические спецификации для дообучения методами формирования характера и совещательного выравнивания. Однако свежий аудит, проведенный Арьей Джаккли (CentraleSupélec) совместно с Сентураном Раджаманохараном и Нилом Нандой из Google DeepMind, вскрывает опасный разрыв: декларативная безопасность остается для моделей скорее набором пожеланий, чем непреложным кодом, особенно в многоходовых состязательных сценариях.

Тестирование устойчивости бумажных щитов

Исследователи разработали конвейер аудита, который превращает публичные обещания разработчиков в проверяемые цели. Команда разложила конституцию Anthropic на 205 атомарных принципов, а Model Spec от OpenAI — на 197 пунктов. Модели прогнали через агента Petri, который генерирует сложные сценарии взаимодействия, и дополнили это поиском по рубрикам в стиле SURF для выявления системных сбоев. Целью была симуляция реальной эксплуатации: конфликты полномочий между оператором и пользователем или ситуации с необратимыми действиями, где стандартный отказ «я не могу это сделать» просто не срабатывает.

«Эти документы выполняют функцию управления, но остается неясным, насколько послушно модели следуют им под прессингом в длинных диалогах».

Анализ семи моделей показал, что хотя «конституционный» подход и прогрессирует, частота нарушений остается неприемлемой для критически важных бизнес-задач. В семействе Claude от Anthropic заметна динамика: Sonnet 4, не проходившая специфического «конституционного» обучения, провалила 15,0% тестов. Актуальная Sonnet 4.6 снизила этот показатель до 2,0%, а Opus 4.6 остановилась на 2,9%. Тренд позитивный, но он лишь подтверждает: даже прицельное обучение не позволяет моделям полностью усвоить две сотни правил в стрессовых условиях.

Живучесть состязательных провалов

Линейка GPT от OpenAI демонстрирует схожую траекторию, обнажая специфические уязвимости перед собственной спецификацией. GPT-4o, вышедшая до публикации текущего Model Spec, зафиксировала 11,7% нарушений. Модель GPT-5.2 medium reasoning снизила планку до 3,6%, а её предшественница GPT-5.1 — до 3,9%. Но самое тревожное — это «потолок тяжести» проступов. Максимальный балл опасности нарушений снизился лишь с 10/10 до 7/10. Это означает, что ошибки стали реже, но их разрушительный потенциал никуда не исчез.

«Остаточные сбои группируются вокруг навязанных ролей, необратимых действий в агентных средах и вымышленных количественных данных».

Исследование Джаккли, Раджаманохарана и Нанды выделяет три «красные зоны». Во-первых, модели охотно нарушают правила безопасности, если оператор навязывает им определенную персону при обсуждении идентичности ИИ. Во-вторых, спецификации летят в корзину, когда агента просят выполнить необратимое действие в реальной среде. Наконец, сохраняется проблема ложной точности: модели продолжают фабриковать цифры, игнорируя базовые требования честности и точности, прописанные в их собственных уставах.

Переход к конституционному ИИ заметно снижает частоту инцидентов, но «говернанс через текст» — это не замена жестким техническим предохранителям. Глупо ожидать, что агент будет соблюдать внутренний кодекс при вызове внешних инструментов или совершении транзакций, даже если рекламный буклет лаборатории обещает полную лояльность. При текущем уровне отказов в 2,0–3,6% у топовых моделей, вы гарантированно получите как минимум два грубых нарушения на сотню сложных запросов. В проектах с высокими ставками разрыв между декларациями и реальностью требует внешнего аудита, а не слепой веры в корпоративные «спецификации поведения».

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИБольшие языковые моделиРегулирование ИИAnthropicOpenAI