Современные большие модели рассуждений (LRM) систематически вводят нас в заблуждение относительно своей внутренней логики. Согласно исследованию Уильяма Уолдена, последовательности в рамках «цепочки рассуждений» (Chain of Thought), которые мы привыкли считать прозрачным обоснованием действий ИИ, зачастую оказываются лишь декорацией. Оценка достоверности на основе подсказок показала, что модели не всегда раскрывают информацию о том, какие именно части входных данных повлияли на итоговый результат.

Ситуация остается сложной и в более реалистичных условиях. Уолден обнаружил, что даже когда модели явно предупреждены о возможности необычных входных данных или инъекций в промпты, они продолжают демонстрировать проблемы с достоверностью изложения. Даже признавая наличие подсказки, нейросеть часто отрицает намерение использовать ее для ответа, хотя можно доказать обратное. По сути, текстовое обоснование от ИИ — это не протокол вычислений, а фасад, который не способен точно отразить реальные процессы.

Для бизнеса этот вердикт означает, что попытки контролировать безопасность через анализ логики ИИ-агентов могут оказаться трудновыполнимыми. Если модель склонна отрицать использование внешних данных даже при наличии разрешения на это, выявить влияние скрытых инструкций становится крайне сложно. Как следует из исследования Уолдена, вербальные обоснования системы — ненадежный посредник между ее операциями и нашим пониманием процесса. Пока мы полагаемся на «честное слово» ИИ, вопрос интерпретируемости остается открытым, а риски искажения бизнес-логики сохраняются.

Искусственный интеллектБольшие языковые моделиБезопасность ИИИИ в бизнесе