Существующие ИИ-агенты часто пасуют перед реальными задачами в ОС из-за нехватки качественных данных. Новый метод ISE (Намерение → Симуляция → Исполнение) тренирует модели в изолированных песочницах. Обученная на данных ISE модель Qwen3-8B превзошла GPT-4o в тестах на управление системой.

Современные ИИ-агенты позорно капитулируют перед многошаговыми задачами в операционных системах не потому, что им не хватает вычислительной мощности, а из-за тотального дефицита адекватных данных. Как отмечают Сыюань Ло и его команда в свежем препринте, существующие датасеты обучают модели «говорить о работе», а не работать. Большинство систем синтезируют задачи вокруг доступных API, что бесконечно далеко от хаотичных намерений живого пользователя и реальных сценариев, где софт «падает», а пути к файлам меняются на лету.

Фреймворк ISE (Intent → Simulate → Execute) пытается вылечить этот разрыв через жесткую трехэтапную конвейерную сборку данных. Вместо того чтобы просить модель галлюцинировать успех, исследователи внедрили 4D-матрицу для генерации почти 44 000 сценариев, варьируя роли, домены и сложность. Ключевое отличие здесь в «песочнице»: каждое действие прогоняется через изолированный воркспейс ОС. Это позволяет фиксировать не стерильный результат, а реальный процесс восстановления после ошибок.

Агент учится не просто выдавать текст, а делегировать задачи и корректировать свои действия, опираясь на системный фидбек.

Цифры подтверждают, что «тренировки в поле» работают эффективнее гигантских параметров. Обучение на трассировках ISE повысило показатель pass@1 для скромной Qwen3-8B в тестах ClawEval с жалких 19,3 до внушительных 37,7. Для контекста: это оставляет позади GPT-4o в режиме zero-shot и более тяжелую Qwen3-32B. На наш взгляд, это четкий сигнал рынку: пора перестать кормить модели энциклопедическими знаниями и начать учить их пользоваться терминалом.

Для бизнеса это означает фундаментальный демонтаж привычных ассистентов-советчиков. Мы переходим к эпохе автономных операторов, способных перелопачивать файловую структуру и управлять сложным софтом без ежесекундного надзора. Когда нейросеть начинает исправлять свои ошибки в консоли так же быстро и осознанно, как опытный сисадмин, потребность в промежуточном интерфейсе чат-бота отпадает за ненадобностью. Будущее за исполнительными системами, которым не нужно объяснять, почему кнопка не нажалась — они просто нажмут её заново.

ИИ-агентыАвтоматизацияБольшие языковые моделиДообучение моделейQwen