Самые быстрорастущие компании в сфере AI сегодня либо продают инференс, либо перепродают его, выступая в роли «первой производной» индустрии. Однако бизнес-модель, построенная на наценке к стоимости токенов, — это путь к околонулевой марже. Такой проект функционирует скорее как платежный шлюз, а не как софтверная компания. По оценке аналитика Томаша Тунгуза, модель «cost-plus», где цена для клиента жестко привязана к затратам на инференс (например, на 30% выше), принципиально хрупка. Она ограничивает готовность клиента платить потолком стоимости вычислений, превращая продукт в прозрачный и крайне неудобный налог.
Ценовая коммодитизация
Когда стартап выстраивает вокруг модели обвязку из интерфейса и рабочих процессов, он обязан обосновать премию к цене. Но по мере того как инференс становится дешевым товаром, маржа в модели «cost-plus» неизбежно стремится к нулю. В какой-то момент клиент просто сравнивает ваш счет с тарифами на «голые» API и начинает искать способы обойти посредника. Чтобы удержать валовую маржу выше 30%, фаундерам необходимо полностью отвязать ценообразование от затрат на токены.
Перепродажа инференса по себестоимости — это бизнес с нулевой маржой: вы строите платежную инфраструктуру, а не софтверную компанию.
Переход к Value-Based Pricing (оплате за результат) позволяет выжить в условиях дефляции вычислительных мощностей. Как отмечает Томаш Тунгуз, компания Sierra выставляет счет только тогда, когда агент успешно закрывает тикет, а Devin продает «единицы агентских вычислений» (Agent Compute Units), абстрагируя клиента от сырого железа. Эту же логику годами используют Databricks и Snowflake, продавая внутренние кредиты. Когда вы берете деньги за выполненную задачу или сформированный отчет, вы забираете часть созданной ценности, и клиенту становится безразлично, сколько ресурсов потрачено на инференс.
Защита маржи: дистилляция против BYOK
Оптимизация остается ключевым рычагом снижения издержек, но не все методы одинаково полезны. Роутинг моделей и кэширование — это тактические приемы, которые конкуренты скопируют за неделю. Настоящую фору дает дистилляция. Пропуская трафик через топовые проприетарные модели (frontier models) и перенося их «знания» в компактные студенческие модели (менее 8 млрд параметров), компания получает возможность работать на дешевом железе. Это создает уникальный актив, который сложно воспроизвести, и радикально снижает стоимость доставки услуги.
Дополнительным стресс-тестом для стратегии становится тренд «Bring Your Own Key» (BYOK). Когда клиент видит расходы на инференс в своем облачном счете, любая ваша наценка превращается в неоправданный побор. В рамках платформенного подхода или оплаты за результат BYOK перестает быть угрозой: клиент платит за результат или за сервис, который делает его собственный бюджет на вычисления эффективнее. Совет директоров любого AI-стартапа сегодня должен честно ответить на вопрос: строят ли они полноценную технологическую компанию или просто рисуют красивый дашборд поверх платежного терминала.