Агенты, работающие с интерфейсами (Computer-Use Agents, CUA), должны были стать мостом между естественным языком и хаосом десктопных приложений, но пока они выглядят как стажеры на плохом бенчмарке. Исследование Марты Сумик и Александра Косована из Украинского католического университета подтверждает: на тестах OSWorld топовые модели выбивают всего около 60%. Главная беда — десктопная среда слишком «грязная». В отличие от шахмат или видеоигр, здесь нет четких машиночитаемых сигналов успеха. Если вы попросили ИИ составить отчет в Excel, системе крайне сложно понять, выполнена ли задача на самом деле или она просто открыла пустую таблицу. Без внятной обратной связи обучение буксует.
Взлом барьера обратной связи
Классическое обучение с подкреплением (RL) требует либо прописывать функции вознаграждения вручную для каждой кнопки, либо нанимать армию разметчиков. Оба пути — это тупик для масштабирования. Как объясняют Сумик и Косован, предыдущие попытки заставить агента оценивать самого себя приводили к замкнутому кругу: кривое восприятие модели, которое мы пытаемся исправить обучением, становится судьей этого самого обучения. Решение нашлось в использовании сторонних Vision-Language моделей (VLM) в роли автономных цензоров. Вместо того чтобы копаться в коде и эвристиках, VLM просто смотрит на финальный скриншот и сверяет его с инструкцией пользователя. Если картинка соответствует запросу — агент получает «печеньку».
Успех задачи часто завязан на визуальный контекст, который невозможно описать жестким кодом или ручными метками.
Этот переход к визуальному обоснованию позволяет агентам учиться в открытых GUI-средах без надсмотрщика. Разработчики наконец-то могут свернуть масштабные программы найма асессоров и запустить цикл самосовершенствования системы. Магия здесь не в самой «зрячести» модели, а в превращении сырого пиксельного потока в четкий терминальный сигнал для оптимизации политики.
Математика против галлюцинаций успеха
Разумеется, автономные оценщики тоже склонны ошибаться. Они могут засчитать провал за победу или не заметить триумф — это называется шумом обратной связи. Сумик и Косован подошли к проблеме прагматично, представив фидбек оценщика как зашумленный бинарный канал. Они внедрили в алгоритм PPO (Proximal Policy Optimization) специальный оценщик вознаграждения с поправкой на шум, который математически нивелирует ложноположительные и ложноотрицательные срабатывания. Это и есть критическая разница между моделью, которая бездумно повторяет свои галлюцинации, и системой, способной фильтровать собственные ошибки.
Скорректированные награды повышают вероятность успеха в среднем на 12,6 процентных пункта по сравнению с базовыми zero-shot моделями.
Цифры исследования показывают, что метод «лечения» шума работает на всех ключевых аренах: macOSWorld, Windows Agent Arena и OSWorld. Скорректированный сигнал дал прирост в 5,1 процентных пункта даже по сравнению с обычным дообучением на сыром фидбеке VLM. По сути, авторы признали несовершенство «судьи» и заложили это в архитектуру, получив на выходе гораздо более устойчивое поведение агентов.
Для бизнеса и техлидов это означает смену парадигмы: масштабирование автономных систем больше не требует бесконечного бюджета на ручную разметку. Мы переходим к этапу, где качество ИИ-сотрудников зависит не от количества людей в цепочке обучения, а от грамотной математической обработки визуального шума. Рост успеха на 12,6 пункта — это не просто статистическая погрешность, а сигнал о том, что эпоха «ручного привода» в обучении агентов подходит к концу. Тем не менее, зависимость от VLM сохраняется, а значит, идеальной точности пока ждать не стоит — мы просто научились эффективнее управлять неизбежными ошибками.