Стелла Лорензо, директор по ИИ в AMD, обнародовала неумолимые данные: модель Claude 3 от Anthropic начала демонстрировать клиническую деградацию производительности сразу после запуска. Анализ более 230 000 запросов за февраль-март показал, что медиана длины рассуждений модели просела с 2200 до 600 символов. Параллельно соотношение операций чтения к правкам кода ужалось с 6,6:1 до 2:1. Иными словами, модель перешла от вдумчивого анализа к поверхностной имитации, что, мягко говоря, настораживает.
Ситуация обострилась после 8 марта, когда Anthropic «для удобства» внедрила функцию сокрытия процесса рассуждений (thinking redaction). Как уверяли разработчики, это сущая мелочь. Данные AMD кричат об обратном: именно после этого изменения Claude 3 стала чаще отказываться выполнять задачи и генерировать откровенно противоречивые ответы. Если раньше мы могли хоть как-то рассчитывать на стабильность моделей, то теперь приходится признать: их производительность может деградировать прямо на глазах после старта. Долгосрочная ценность? Вопрос открытый.
Для бизнеса такое снижение качества — прямой билет в дороговизну. По оценкам AMD, ежедневная стоимость использования Claude взлетела в 122 раза из-за падения эффективности. Задачи выполняются медленнее, требуют больше итераций или вовсе остаются невыполненными. Ожидаемая экономия от автоматизации превращается в непредвиденные расходы на ручную доработку и проверку результатов, генерируемых «оптимизированным» ИИ.
Почему это важно для вас? Этот кейс — ярчайшая иллюстрация того, как изменения, преподносимые как улучшения, могут обернуться скрытым ростом операционных расходов и репутационными рисками. Перед тем, как масштабировать любое ИИ-решение, убедитесь в его реальной производительности и стоимости. Независимая верификация — больше не роскошь, а необходимость. Иначе ваш бюджет рискует превратиться в черную дыру, а доверие к технологии — испариться.