ОС для ИИ-агентов: почему масштабирование моделей не работает

Индустрия совершила классическую ошибку, пытаясь излечить нейросети от галлюцинаций простым наращиванием числа параметров. Исследователи Хайлинь Чжун из Баптистского университета Гонконга и Шэнсинь Чжу из Пекинского педагогического университета в своей свежей работе предостерегают любителей бесконечного масштабирования. Их тезис прост: хроническая ненадежность автономных ИИ-агентов — это не признак «низкого IQ» моделей, а диагноз инфраструктурной импотенции. Мы пытаемся заставить мощный «двигатель» LLM ехать без трансмиссии и рулевой колонки.

Проблема заключается в том, что современная разработка ПО — это эмерджентное свойство триады «Модель — Обвязка — Среда». Сегодня даже топовые модели вроде Claude 3.5 или GPT-4o заперты в средах, спроектированных под человека. В итоге ИИ вынужден импровизировать или ждать подсказок от оператора, чтобы заполнить пробелы в проектной памяти. Чжун и Чжу предлагают формализовать понятие AI Harness (инфраструктурная обвязка или субстрат) как полноценную операционную систему для кодинга. Она берет на себя 11 критических функций — от атрибуции сбоев до управления проектным контекстом — превращая нейросеть из капризного генератора патчей в предсказуемую инженерную единицу.

Забудьте про промпт-инжиниринг и бездумное заталкивание данных в окно контекста: для сложных корпоративных репозиториев этот подход мертв. На графиках исследователей наглядно видно, как модели латают «фасад» интерфейса, одновременно ломая логику API просто потому, что не понимают состояние задачи в динамике. Чтобы преодолеть этот барьер, вводится четырехуровневая шкала зрелости среды (от H0 до H3). На высшем уровне система выдает не просто фрагмент кода, а полный аудируемый пакет: логи воспроизведения ошибки, отчеты о верификации и детерминированные проверки требований. Только так можно точно определить источник сбоя — кроется ли он в логике модели или в конфигурации среды.

Для СТО и R&D-лидов это четкий сигнал к смене приоритетов. Будущее DevOps теперь заключается не в управлении кодом как таковым, а в управлении субстратом, через который ИИ этот код воспринимает. Пора перестать относиться к LLM как к магическому инструменту решения любых задач. Если вы хотите вырваться из плена вечного контроля со стороны человека и превратить экспериментальные игрушки в работающий автономный софт, инвестировать нужно в жесткую инженерную среду и Runtime, а не в очередные миллиарды параметров, которые все равно окажутся бесполезными без правильного интерфейса взаимодействия с реальностью.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБольшие языковые моделиАвтоматизацияИИ в бизнесе

Операционная система для ИИ-агентов: почему масштаб моделей больше не решает всё