О деградации больших языковых моделей спорят годами, но Anthropic преподнесла подарок скептикам — редкое и чистосердечное признание в том, что «оптимизация» оказалась обычным урезанием костов. Официальный отчет компании подтвердил: серия обновлений Claude Code была нацелена на снижение задержек и экономию ресурсов, но на деле превратила инструмент в капризного ассистента. Ситуация иронична: пока стартап с многомиллиардной оценкой торгует мощью ИИ, внутренние настройки незаметно превращают его в тыкву.

Первым тревогу забила директор по ИИ в AMD, чьи тесты еще в марте показали, что Claude начал ощутимо «тупить». Вендор долго хранил молчание, но свежий разбор полетов от Anthropic расставил точки над i. Как выяснилось, 4 марта режим логических рассуждений (reasoning) по умолчанию переключили с уровня high на medium. Мотивация выглядела благородно — ускорить отклик, но по факту это просто срезало глубину анализа. Дальше в системный промпт добавили жесткие лимиты: 25 слов между вызовами инструментов и 100 слов в финальных ответах. По оценке инженеров, качество кода упало «всего» на 3%, но для профессионального разработчика это часто означает разницу между работающим софтом и набором багов.

Абсурда добавил баг с очисткой контекста. При возобновлении сессии после часового перерыва система должна была один раз стереть блоки размышлений (thinking), но из-за ошибки делала это на каждом шаге. В итоге Claude буквально забывал, что написал секунду назад, путался в показаниях и ускоренно сжигал лимиты клиентов. Исправили это только 10 апреля. Самое примечательное: сотрудники Anthropic используют «привилегированную» сборку агента, поэтому внутренний мониторинг просто не замечал проблем, с которыми мучились внешние пользователи.

Механика процесса прозрачна: вендоры всегда будут искать баланс между качеством выдачи и своей маржинальностью. Когда стоимость запуска модели (инференса) бьет по карману, в ход идут скрытые промпты и понижение вычислительных режимов. Это обнуляет ценность любых публичных бенчмарков. Модель, которая блистала на тестах вчера, сегодня может работать по иным инструкциям, о которых вам не сообщат. На наш взгляд, бизнес-критичные процессы нельзя замыкать на облака без независимого аудита качества. Если вендор в любой момент может урезать логику ради экономии электричества, ваша операционная эффективность становится заложником чужого финансового отчета.

Большие языковые моделиИИ в бизнесеСнижение затратAnthropic