OpenAI внедрила WebSockets в Responses API для ускорения агентов

Стандартный цикл HTTP-запросов превратился в главное узкое место для автономных агентов нового поколения. Как отмечают Брайан Ю и Ашвин Натан из технической команды OpenAI, индустрия подошла к моменту, когда инференс модели перестал быть самым медленным звеном. С выходом GPT-5.3-Codex-Spark, выдающей более 1000 токенов в секунду на мощностях Cerebras, архаичные накладные расходы на постоянные «рукопожатия» (handshakes) превратились в непозволительную роскошь. Когда агент вроде Codex выполняет комплексную задачу — сканирует кодовую базу, запускает тесты и правит баги, — он по старинке совершает десятки итераций обмена данными. Эта структурная неэффективность приводила к тому, что пользователи ждали минутами результат, который процессоры обрабатывают за секунды.

От дискретных запросов к постоянным потокам

Чтобы разорвать этот порочный круг, OpenAI перевела Responses API с синхронных HTTP-вызовов на постоянные соединения через WebSockets. Проблема была в том, что на скоростях GPT-5 (около 65 токенов в секунду) задержки API удавалось маскировать. Однако при взрывном росте производительности вычислений кумулятивный эффект от валидации каждого шага и обработки контекста стал невыносимым. Переход на WebSockets позволяет OpenAI кэшировать состояние диалога в памяти на все время сессии. Теперь нет нужды заново пересылать и обрабатывать всю историю переписки при каждом последующем действии агента.

Этот архитектурный маневр обеспечил 40-процентное ускорение агентских циклов (agentic loops). Выбор в пользу WebSockets обусловлен возможностью инкрементальной передачи данных. На наш взгляд, это не просто косметическое улучшение, а фундамент «агентомики» (Agentomics): инфраструктура, необходимая для того, чтобы работа высокоскоростных моделей вроде Codex-Spark ощущалась мгновенной, а не итерационной.

За счет сокращения сетевых узлов и отказа от вызовов промежуточных сервисов команда OpenAI напрямую влияет на отзывчивость агентов в реальных рабочих условиях.

Инфраструктура агентомики

Ставка на постоянные соединения — это еще и способ углубить зависимость клиентов от оптимизированного стека OpenAI. Интерфейс кажется привычным, но архитекторам придется перекраивать промежуточное ПО для работы с потоковыми состояниями и асинхронной блокировкой. В рамках этого технологического марафона, начатого в ноябре 2025 года, OpenAI также внедрила ускоренные классификаторы безопасности, чтобы производительность не шла в ущерб защищенности. Для бизнеса это означает смену парадигмы: «зависающий» агент, заставляющий пользователя созерцать индикатор загрузки, становится признаком технического долга, а не нормой.

ИТ-директорам и техлидам стоит немедленно пересмотреть текущие слои оркестрации. Если ваша система до сих пор принудительно перезагружает полный контекст на каждом шаге — вы проиграли в скорости. Перевод высокочастотных циклов на потоковые протоколы становится базовым требованием для выживания в мире, где пользователи привыкают к мгновенной реакции уровня GPT-5.3-Codex-Spark.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыПроизводительностьOpenAIИИ в бизнесеБольшие языковые модели

Эпоха мгновенных агентов: OpenAI внедряет WebSockets для борьбы с задержками API

От дискретных запросов к постоянным потокам

Инфраструктура агентомики