Эпоха декоративных надстроек над языковыми моделями достигла своего предела, когда речь заходит о физических задачах с горизонтом планирования в тысячи шагов. Пока инструменты вроде Claude Code или OpenHands успешно наводят порядок в программном коде, Сет Картен из Принстона вместе с коллегами из ARISE Foundation и Google DeepMind указывают на критический пробел: отсутствие надежной инфраструктуры для воплощенных агентов, работающих в условиях частичной видимости.
Эксперимент Gemini Plays Pokémon (GPP) наглядно продемонстрировал, что прохождение Pokémon Crystal без единого поражения на максимальной сложности — это не просто развлечение, а триумф системного подхода над грубой вычислительной мощностью. Архитектура Continual Harness полностью исключает человека из процесса дообучения. В отличие от традиционных методов оптимизации промптов, требующих постоянного перезапуска среды, это решение адаптируется «на лету» в рамках одного непрерывного цикла без сброса настроек (reset-free).
Агент самостоятельно переключается между выполнением действий и рефлексией, пересматривая собственные инструкции и работу субагентов на основе данных о прошлых сценариях. На дистанции в Pokémon Red и Emerald система радикально сократила количество избыточных действий, доказав: ИИ способен самостоятельно преодолевать разрыв в производительности, который раньше устранялся только вручную прописанными экспертными алгоритмами.
Для бизнеса это означает тектонический сдвиг от найма промпт-инженеров к внедрению самовосстанавливающихся архитектур. Мы наблюдаем переход к инфраструктурному управлению, где операционные сбои становятся не фатальными ошибками, а ценным источником бесплатных данных для итерации стратегии. Исследование подтверждает эффективность связки «учитель-ученик», где открытые модели обучаются на разметке от передовых решений уровня Gemini 1.5 Pro.
Главным узким местом остается зависимость от моделей-учителей, но вектор развития очевиден. Вместо создания жестких алгоритмов руководителям пора готовиться к внедрению систем, способных выживать и эволюционировать в динамичной логистике без постоянной поддержки со стороны человека. Это уже не имитация интеллекта, а его прямая эксплуатация в условиях реальной неопределенности.