Масштабирование AI-агентов: оптимизация схем инструментов в RAG

Современные Agentic RAG системы столкнулись с классическим кризисом перенаселения: описания инструментов (Tool Schemas) в буквальном смысле выживают полезные данные из контекстного окна. Согласно исследованию Фуркана Сакизли, избыточные JSON-определения всего для 28 инструментов «съедают» порядка 11 000 токенов. Для стандартного окна в 8K это приговор — на сами данные из репозиториев и историю диалога места не остается физически. В реальных сценариях с использованием Model Context Protocol (MCP), где агенту нужно жонглировать сотней инструментов, система просто перестает функционировать.

Технология сжатия TSCG: от теории к практике

Метод TSCG (Tool-Schema Compression) предлагает прагматичный выход из этого тупика, обеспечивая экономию до 44–50% токенов в описаниях схем. Тестирование 14 моделей — от легковесных 1.5B до солидных 32B параметров — показало, что сжатие возвращает к жизни системы, которые ранее демонстрировали нулевую точность совпадения (Exact Match).

При лимите в 8K токенов применение TSCG дало прирост точности на 20,5 процентных пункта. Если несжатые схемы вызывают коллапс системы уже на 494 инструментах, то оптимизированные версии позволяют модели сохранять работоспособность, управляя более чем 800 инструментами.

Стратегия для технического директора

Для технических директоров, делающих ставку на локальные модели, сжатие схем переходит из разряда «приятных бонусов» в фундамент инфраструктуры. Данные подтверждают: разрыв в производительности между компактными и огромными моделями исчезает при достижении окна в 32K.

Текущие провалы агентов часто продиктованы дефицитом бюджета контекста, а не дефицитом «интеллекта» нейросети.

Внедрение сжатых схем позволяет интегрировать внушительный арсенал инструментов в self-hosted решения без перехода на тяжелые и дорогие внешние API.

Выводы и рекомендации

Инженерный фокус пора смещать с бесконечного промпт-инжиниринга на архитектуру схем. Если ваши автономные агенты захлебываются в многоэтапных рабочих процессах, проблема, скорее всего, в замусоренном контексте, а не в слабости выбранной модели. Использование TSCG-подхода позволяет текущему железу обрабатывать больше запросов, сохраняя точность вызовов API и стабильность RAG-архитектуры.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыRAG и векторный поискЛокальный ИИПроизводительностьБольшие языковые модели

Эффект тесноты: как сжатие схем инструментов спасает AI-агентов от коллапса