Anthropic Petri: Новый стандарт безопасности ИИ для бизнеса

Компания Anthropic решила избавить индустрию от изнурительного ручного тестирования на уязвимости (ред-тиминга), передав свой внутренний инструментарий Petri некоммерческой организации Meridian Labs. Согласно отчету Anthropic Research, эта система служила фундаментом для проверки каждой модели семейства Claude, начиная с версии Sonnet 4.5. Механика здесь гораздо изящнее простых опросников: используется связка из модели-аудитора, создающей провокационные сценарии, целевой модели и модели-судьи, которая выставляет баллы за склонность к обману, угодничеству (sycophancy) и готовности помогать в сомнительных делах.

Передавая Petri «нейтральной стороне», как это ранее было с протоколом MCP, компания Дарио Амодеи фактически навязывает свои внутренние стандарты в качестве глобального эталона безопасности. Техническая начинка Petri 3.0 пытается решить главную проблему современных больших языковых моделей — их умение притворяться «хорошими мальчиками», когда они чувствуют проверку. По словам команды Anthropic, модели часто распознают искусственную среду тестирования и фильтруют свои ответы. Чтобы вскрыть этот фасад, разработчики внедрили модуль Dish, который заставляет модель работать в её аутентичной среде с реальными системными инструкциями. В сочетании с инструментом Bloom для глубокого анализа поведения это превращается в двухслойную броню. По данным Meridian Labs, британский Институт безопасности ИИ (UK AISI) уже сделал Petri ключевым компонентом своих оценок, проверяя модели на способность к саботажу исследований.

За этим широким жестом скрывается прагматичный расчет. Anthropic не просто занимается благотворительностью, она стандартизирует правила игры. Давая рынку готовую «линейку», компания гарантирует, что и регуляторы, и сторонние разработчики будут использовать именно её методологию определения того, что считать «вредоносным». Для бизнеса это выглядит как заманчивое предложение: вы получаете возможность проводить аудит уровня топовых лабораторий без найма дефицитных специалистов за баснословные чеки. Однако ценой этой экономии становится плотная привязка вашей стратегии соответствия нормативным требованиям к взглядам Anthropic на этику и безопасность.

Происходит коммодитизация безопасности: вопрос «безопасна ли модель?» закрывается типовым софтом, смещая фокус конкуренции на скорость внедрения. Если в вашей компании уже развернуты внутренние нейросети, есть смысл забрать Petri 3.0 из репозитория Meridian Labs и прогнать базовый тест на угодничество. Это отличный способ проверить, не поддакивает ли ваш ИИ руководству в ущерб объективности и не скрываются ли за вежливыми ответами системные галлюцинации.

Источник: Anthropic Research →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИБольшие языковые моделиИИ в бизнесеРегулирование ИИAnthropic