OpenAI Operator: Новая эра компьютерных агентов (CUA)

Эра покорного ожидания, пока вендоры соизволят договориться о «бесшовных» API, официально завершена. 23 января 2025 года OpenAI представила превью Operator — агента, способного не просто советовать, а действовать. В основе системы лежит Computer-Using Agent (CUA), модель, которая игнорирует традиционные бэкенд-интеграции и работает с графическим интерфейсом (GUI) ровно так же, как это делаете вы: через зрение и имитацию действий пользователя. Анализируя «сырые» пиксели и управляя виртуальной мышью и клавиатурой, CUA превращает интернет из набора закрытых потоков данных в открытое визуальное рабочее пространство.

Визуальное мышление вместо структурных костылей

OpenAI демонстративно сворачивает в сторону от узкого горлышка плагинов и закрытых экосистем. Технологический стек CUA — это не просто надстройка, а результат слияния мультимодальных способностей GPT-4o Vision и обучения с подкреплением (Reinforcement Learning). По словам Сэма Альтмана и команды разработчиков, CUA воспринимает кнопки, меню и текстовые поля как визуальные объекты, а не как фрагменты кода. Это ключевой сдвиг: агент работает в итеративном цикле «восприятие — рассуждение — действие». Он делает скриншот, оценивает текущее состояние экрана, декомпозирует задачу на шаги и кликает до тех пор, пока цель не будет достигнута.

CUA обучен взаимодействовать с графическими интерфейсами — кнопками и меню, которые видит человек, — точно так же, как это делают люди.

Такой подход позволяет модели самокорректироваться на лету. В отличие от жесткой автоматизации на базе API, которая «падает», стоит разработчику сменить название поля в базе данных, CUA справляется с хаосом живых веб-сайтов. Цифры OpenAI подтверждают жизнеспособность концепции: на тесте OSWorld агент показал 38,1% успеха в управлении операционной системой. В веб-среде результаты еще убедительнее: 58,1% на WebArena и впечатляющие 87,0% на WebVoyager. По сути, мы наблюдаем, как визуальный интерфейс превращается в машиночитаемый код без посредников.

Экономика универсального интерфейса

Для бизнеса появление такого «универсального интерфейса» означает девальвацию привычных SaaS-агрегаторов. Если агент способен заполнять формы, управлять CRM и модерировать форумы, просто «глядя» на экран, потребность в дорогостоящем промежуточном ПО и кастомных интеграциях испаряется. OpenAI позиционирует CUA как общее пространство действий, не требующее специфических привязок к конкретной ОС. Однако эта автономность неизбежно наталкивается на барьеры безопасности и корпоративного контроля.

Эта возможность — следующий шаг в развитии AI: переход к использованию тех же инструментов, на которые люди полагаются ежедневно.

Вопрос безопасности остается главным тормозом для внедрения в корпоративный контур. В OpenAI подчеркивают, что приоритет отдан защищенности, поэтому доступ к Operator открыт пока только для пользователей Pro-уровня в США для сбора обратной связи. Разрыв между возможностями агента и человека всё еще заметен: если в простых сценариях WebVoyager CUA близок к лидерству, то в сложных бенчмарках вроде WebArena он пока отстает. Это сигнализирует о том, что роль «оператора» в бизнес-процессах трансформируется, но пока агент лучше всего подходит для рутинных браузерных задач, а не для принятия критически важных решений.

Если CUA в конечном итоге догонит человека в сложных задачах OSWorld, возникает резонный вопрос: что останется от коммерческой ценности IT-компаний, чей основной бизнес строится на продаже «коннекторов» между фрагментированными цифровыми инструментами? Кажется, OpenAI нацелилась на создание Sky Interface — универсального слоя управления, который делает любые проприетарные интеграции избыточными.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыКомпьютерное зрениеАвтоматизацияЦифровая трансформацияOpenAI

OpenAI Operator: Как агенты CUA заменяют традиционные API и меняют ландшафт SaaS

Визуальное мышление вместо структурных костылей

Экономика универсального интерфейса