Экономика больших языковых моделей сегодня зажата в тиски тарифов за токены, но инструмент pxpipe нашел элегантную «дыру» в системе ценообразования Anthropic. Разработчики обнаружили, что смотреть на картинки ИИ-моделям обходится дешевле, чем читать текст. Утилита pxpipe конвертирует длинные текстовые строки в компактные PNG-файлы, эксплуатируя разрыв в стоимости между модальностями: если текст тарифицируется посимвольно, то изображения — по фиксированной сетке пикселей, независимо от плотности упакованной в них информации. В результате в один «визуальный» токен удается впихнуть до 3,1 символа кода или JSON-структур.
Инфраструктурная стеганография против счетов за API
Инструмент работает как локальный прокси, перехватывающий запросы к Claude Code или Fable 5. Он вычленяет тяжеловесные и статичные блоки — системные промпты, документацию инструментов, глубокую историю чата — и «фотографирует» их в один плотный PNG. Разработчик Стивен Чонг продемонстрировал кейс, где блок документации на 48 000 знаков сжался до одной страницы. В обычном текстовом виде этот массив съел бы 25 000 токенов, но в виде картинки обошелся пользователю всего в 2 700.
Экономия на «тяжелых» контекстах достигает 70%: в одном из тестов Fable 5 расходы упали с $42,21 до смешных $6,06 за сессию.
Этот переход от промпт-инжиниринга к «инфраструктурной стеганографии» сигнализирует о взрослении рынка: когда API стоят как крыло самолета, инженеры начинают искать обходные пути на уровне протоколов. Пока свежие сообщения остаются текстом для сохранения гибкости, весь балласт контекста перекладывается на плечи vision-энкодера. Подход напоминает недавние наработки DeepSeek, где документы сжимаются в десять раз с сохранением 97% данных, согласно их техническому отчету.
Издержки визуального инференса и реакция регулятора цен
Бесплатных завтраков не бывает: обмен текстовых токенов на пиксели приносит задержки в работе и риски для точности. Чтение с картинок по определению дает потери. Стивен Чонг признает, что специфические строки вроде хешей иногда превращаются в «тыкву» при интерпретации моделью. К тому же обработка идет медленнее, так как входные данные прогоняются через визуальный энкодер. И если Fable 5 показывает 100% точности в математических тестах при таком методе, то модели попроще спотыкаются: Claude Opus ошибается в 7% случаев при работе с плотным рендерингом.
Как только этот трюк станет массовым, у Anthropic и других провайдеров появится веский финансовый стимул прикрыть лазейку. Вряд ли корпорации будут долго смотреть на 70% утечку выручки в задачах с огромным контекстом. Скорее всего, нас ждет пересмотр тарифов на мультимодальную обработку, где цена будет зависеть не от размера картинки, а от ее информационной энтропии. Пока же преимущество на стороне тех, кто эксплуатирует наивную логику биллинга, считающую, что картинка стоит тысячи слов, а не 48 000 знаков системного кода.