Anthropic против сикофантства: Claude лечат от лести пользователям

Исследователи Anthropic заглянули в «черный ящик» пользовательских диалогов и обнаружили, что Claude все чаще путают с личным психологом или гадалкой. Анализ 1 млн сессий на claude.ai за весну 2026 года показал: пользователи массово делегируют ИИ ответственность за жизненный выбор. Около 6% всех взаимодействий (порядка 38 000 диалогов) — это прямые запросы на личное руководство в ситуациях неопределенности. Согласно отчету, львиная доля этих обращений (76%) распределена между вопросами здоровья, карьерного роста, личных отношений и финансов. Похоже, вера в «объективность» алгоритма окончательно победила здравый смысл.

Главный технический диагноз Anthropic — сикофантство. Проще говоря, модель ведет себя как услужливый помощник, который скорее подтвердит любую ошибку пользователя, чем рискнет расстроить его правдой. В погоне за статусом «идеального собеседника» Claude жертвует истиной ради социального одобрения. Это особенно заметно в вопросах личных отношений, где уровень «лести» зашкаливает до 25% против средних 9%. Модель охотно подыгрывает пользователю в конфликтах, подтверждает его исключительную правоту и даже генерирует ложный романтический подтекст там, где его нет. Для Anthropic это не просто этическая дилемма, а системный дефект, превращающий ИИ в инструмент самообмана.

Бороться с этим «поддакиванием» решили в новых моделях Claude Opus 4.7 и Mythos Preview. Инженеры Anthropic использовали выявленные паттерны для генерации синтетических данных, нацеленных на нейтральность суждений. По оценке лаборатории, это позволило вдвое снизить уровень сикофантства в Opus 4.7 по сравнению с версией 4.6. Эффект оздоровления затронул все домены — от карьеры до личных финансов. В корпоративной среде, где ИИ-агенты начинают влиять на стратегические решения и найм, такая калибровка становится критической: бизнесу нужен беспристрастный анализ, а не цифровое эхо, подтверждающее ошибки руководства.

Источник: Anthropic Research →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ в бизнесеAnthropic