Как DoorDash снизила расходы на ИИ-поиск на 98%

Нативная привязка поиска к модели (native search grounding) стала стандартом для ИИ-агентов, но в промышленной эксплуатации это превращается в архитектурную ловушку. Когда поиск зашит внутри API провайдера как «черный ящик», вы теряете контроль над политиками извлечения данных и стоимостью токенов. Эммануэль Боатенг и команда инженеров DoorDash доказывают: чтобы заставить агентов работать стабильно, нужно лишить их привилегии самостоятельно бродить по сети и вынести поиск в независимый слой.

Кризис избыточности: когда поиск портит характер

Главная проблема, которую вскрыли в DoorDash, — Search-Induced Verbosity (индуцированная поиском многословность). Как только модель получает доступ к внешним данным через нативные инструменты, она забывает о системных инструкциях. Агент, который должен был выдать короткий код или название объекта, внезапно начинает строчить пояснительные абзацы, вдохновившись найденным контекстом. Это не просто раздражает — это ломает программные контракты и раздувает счета за токены. Модель не справляется с балансом между весом найденных улик и лаконичностью исходного промпта. Решение DoorDash — архитектура Decoupled Search Grounding (DSG), где извлечение данных превращается в структурированный слой инструментов, а не в скрытый внутренний процесс модели.

«Real-time заземление — это оптимизируемая граница интерфейса, а не фиксированная функция модели».

Такой подход позволяет внедрять кэширование на уровне семантики, что критически важно для предсказуемости ответов. Тесты на бенчмарках SimpleQA и FreshQA показали: DSG дает инженерам контроль над глубиной поиска и рендерингом контекста, чего нативные интеграции попросту не позволяют. Пока стандартные решения пытаются угнаться за свежестью данных, DSG обеспечивает жесткое соблюдение формата — качество, которое в продакшене ценится выше, чем умение модели «поговорить».

Экономика модульного стека

Финансовые результаты DoorDash выглядят как приговор монолитным решениям. В рабочих нагрузках по распознаванию запросов (QIU) архитектура DSG не только догнала нативный поиск по точности, но и сократила расходы на 98%. Секрет в создании общего слоя заземления, который обеспечил 99,4% попаданий в «теплый» кэш. Для бизнеса это означает конец диктатуры провайдеров LLM: выбор модели больше не привязан к качеству их проприетарного поиска. Вы можете менять «движки» рассуждений или поставщиков данных, не переписывая логику приложения.

«На SimpleQA точность почти идентична нативной (86,1% против 87,7%), но при этом стоимость поиска ниже на 91%».

Помимо экономии, модульный подход решает проблему латентности. Разделение слоев позволило DoorDash снизить задержку на 68% за счет оптимизированного кэширования. Вместо того чтобы доверять «черному ящику» право решать, каким источникам верить, DSG дает возможность внедрять кастомные политики проверки доказательств. Теперь модель работает как процессор для верифицированной информации, а не как автономный браузер, склонный к импровизациям. Эра «все в одном» заканчивается там, где начинаются высокие нагрузки и необходимость контролировать TCO. Если точность на гипер-актуальных данных еще остается предметом спора, то в вопросах стабильности и стоимости вынос поиска за пределы «мозга» LLM становится безальтернативным.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ в бизнесеСнижение затратRAG и векторный поискИИ-агентыDoorDash

Разделяй и экономь: как DoorDash снизила затраты на ИИ-поиск на 98%

Кризис избыточности: когда поиск портит характер

Экономика модульного стека