Индустрия привыкла измерять интеллект кодинг-агентов «валом», но эпоха бездумного цитирования сырых метрик подошла к концу. Полгода мы наблюдали за успехами моделей на бенчмарке SWE-bench, пока OpenAI не вскрыла системный изъян: старые тесты не столько проверяют навыки ИИ, сколько коллекционируют ошибки самих постановщиков задач. На бумаге топовые агенты показывают скромные 20% успеха, но в реальности они упираются в «битые» условия, где решение либо невозможно, либо не поддается проверке.

Дефицит доверия к автономии

В рамках своего фреймворка Preparedness команда OpenAI отслеживает риски, связанные с автономностью моделей. Сейчас этот уровень оценивается как Medium, но есть нюанс: адекватно измерить способность ИИ действовать самостоятельно в реальном софтверном инжиниринге чертовски сложно. Оказалось, что мы систематически недооценивали потенциал моделей просто потому, что оценочные инструменты были собраны «на коленке».

«Наш подход к безопасности должен включать тщательную ревизию самих методов оценки, чтобы исключить риск ложноположительных или ложноотрицательных результатов», — констатируют в OpenAI.

Чтобы ликвидировать этот разрыв, OpenAI вместе с авторами оригинального бенчмарка представила SWE-bench Verified. Это не просто попытка «подкрутить» цифры, а радикальная чистка. Из огромного массива данных отобрали 500 задач, которые прошли через живых модераторов. Аннотаторы проверяли, понятны ли описания тикетов, стабильна ли среда разработки и способны ли юнит-тесты адекватно оценить патч. Это фильтр, отделяющий реальную работу от имитации бурной деятельности в нестабильном окружении.

Стандарт для тех, кто принимает решения

Каждый кейс в новом наборе данных вытянут из реальных GitHub-issue для 12 крупных Python-репозиториев. Проверка идет по жесткому протоколу: тесты FAIL_TO_PASS обязаны «падать» до внесения правок и «зеленеть» после, а PASS_TO_PASS — подтверждать, что агент не разломал соседние модули. В OpenAI выделили три главные проблемы старого подхода: двусмысленные описания, из-за которых модель гадает на кофейной гуще, кривые конфиги окружения и избыточную сложность тестов. Исправление этих «багов в тестах» создает прозрачную иерархию: теперь сразу видно, кто из моделей действительно понимает логику, а кто просто удачно попал в статистическую выборку.

«Оценка этих способностей — вызов из-за сложности инженерных задач и трудностей с симуляцией реальных сценариев разработки», — признают исследователи.

Запуская верифицированный стандарт, OpenAI фактически обнуляет лидерборды. Теперь целью становится не «пройти тест любой ценой», а создать код, который выживет в продакшене. Для CTO и технических директоров это сигнал: метрики наконец-то начинают коррелировать с реальностью. Когда ИИ-агент заявляет, что закрыл тикет в вашем репозитории, за этим должна стоять проверяемая логика, а не слепая удача. Подобные фильтры — необходимый этап перед тем, как давать моделям прямой доступ к критической инфраструктуре бизнеса. Разрыв между «экспериментальным кодингом» и надежным автономным производством сокращается, и происходит это не за счет роста параметров моделей, а за счет элементарного наведения порядка в критериях качества.

ИИ-агентыБезопасность ИИИИ-инструментыOpenAI