Ловушка дешевых ИИ-агентов: исследование маржинальности Anthropic

Интеллект в переговорах эффективнее агрессии — к такому выводу пришли в Anthropic после недельного эксперимента Project Deal. В симуляции маркетплейса, где 69 сотрудников компании торговали широким ассортиментом товаров — от сноубордов до синтетических рубинов — сошлись разные версии нейросети Claude. Результаты неутешительны для любителей экономии: флагманская модель Claude Opus методично «раздевала» младшую Haiku, закрывая больше сделок по более выгодным ценам. В среднем Opus приносила на $3,64 больше с каждой транзакции. Показательный пример: один и тот же лот с искусственным рубином Opus реализовала за $65, грамотно используя конкурентные ставки, в то время как Haiku отдала его почти за бесценок — всего за $35.

Главный операционный риск, который вскрыло исследование Anthropic, заключается в «невидимом неравенстве». Пользователи слабых моделей зачастую даже не подозревают, что теряют деньги. Несмотря на объективно провальные финансовые показатели, сотрудники, чьи интересы представляла Haiku, оценивали справедливость сделок так же высоко, как и пользователи Opus. Это классическая когнитивная ловушка: менеджеры принимают вежливость или функциональность интерфейса за экономическую эффективность. Хуже того, выяснилось, что агрессивные системные инструкции и хитрые приемы по ведению торгов практически не влияют на финал. Решающим фактором остается базовый «интеллект» модели, а не тональность, которую вы пытаетесь ей навязать.

Вердикт для бизнеса: пора перестать оценивать AI-агентов по их обходительности или качеству промпт-инжиниринга. Если вы используете дешевые модели в закупках или продажах, вы можете экономить копейки на стоимости API, теряя миллионы на самой марже. Ваша команда будет рапортовать об успехах и удобстве автоматизации в тот самый момент, когда боты упускают выгоду. Единственный способ измерить реальную окупаемость (ROI) — это жесткий аудит маржинальности и финансовый бенчмаркинг, а не субъективные отзывы сотрудников.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

ИИ в бизнесеИИ-агентыАвтоматизацияAnthropic