Юнит-экономика ваших ИИ-агентов стремительно отвязывается от официальных прайс-листов. Пока индустрия по инерции обсуждает стоимость миллиона токенов, Claude Sonnet 5 доказывает: фиксированные тарифы превратились в мираж для инвесторов. Согласно отчету Artificial Analysis, Sonnet 5 делит пятую строчку в Intelligence Index с GPT-5.5 (high), набрав 53 балла. Модель технически обходит старый флагман Opus 4.8 на агентских задачах, но за этот триумф вы платите скрытый налог. Sonnet 5 поглощает такой объем токенов для выполнения одной и той же работы, что в пересчете на задачу оказывается дороже предыдущего топа Anthropic.

The Tokenization Trap

Реальная картина — это пропасть между ценником в витрине и итоговым счетом. На бумаге Sonnet 5 выглядит экономно: $3 за миллион входных и $15 за миллион выходных токенов против $5 и $25 у Opus 4.8. Однако замеры Artificial Analysis показывают обратное: средняя задача на Sonnet 5 обходится в $2.29, тогда как Opus 4.8 справляется за $1.97. Дарио Амодеи не впервые меняет правила игры на ходу. Вспомните запуск Opus 4.7: новый токенизатор «раздул» объем идентичного текста на 30%. Разработчик Абхишек Рай фиксировал рост до 1.47x, а комьюнити-тесты на выборке из 483 запросов подтвердили скачок в 37.4% токенов на запрос.

Anthropic последовательно камуфлирует подорожание за стабильными ставками, заставляя модели «прожевывать» кратно больший объем данных ради прироста эффективности.

Этот тренд лишь ускоряется с переходом к агентской архитектуре. В бенчмарках AA-Briefcase и GDPval-AA новая Sonnet 5 прокручивает в три раза больше циклов (loops), чем предшественница. На максималках она сжигает на 40% больше выходных токенов на ту же операцию. В итоге проект, стоивший $1.20 на старой модели, теперь обходится почти вдвое дороже при неизменном тарифе за токен.

Limits of the Reasoning Pivot

Несмотря на токенный аппетит, Sonnet 5 быстро упирается в потолок в сложных рассуждениях. В тесте CritPt по фундаментальной физике от Аргоннской национальной лаборатории модель набрала жалкие 17%. Да, это на 14 пунктов выше, чем у Sonnet 4.6, но все еще ниже показателей GLM-5.2, Claude Opus, Fable и GPT-5.5 в старших конфигурациях. И хотя в Terminal-Bench v2.1 и Humanity’s Last Exam виден прогресс, на остальных фронтах наступило плато. Это наводит на мысль, что «рассудительная» нагрузка (reasoning overhead) далеко не всегда конвертируется в пропорциональный рост интеллекта.

Для бизнеса такой сдвиг в сторону тяжелых многоцикловых систем — сомнительная сделка. Скрытая инфляция в экосистеме Anthropic превращается в операционный риск, который трудно масштабировать. Мы входим в реальность, где цена за миллион токенов больше не значит ничего. Anthropic сохранила красивый прайс-лист для отчетов, но модель удвоила ваш счет просто для того, чтобы доказать свою профпригодность. Переход на метрику Cost per Task становится единственным способом сохранить контроль над расходами, прежде чем автономные агенты съедят вашу маржу.

ИИ в бизнесеБольшие языковые моделиИИ-агентыAnthropic