Почему AI-агенты ошибаются в коде: проблема точности

Эпоха слепого восторга перед финальным результатом работы ИИ в программировании подходит к концу. Пока вендоры хвастаются успешными патчами, за кулисами скрывается фундаментальный изъян: «успех» часто маскирует катастрофическую логическую немощь. Исследование международной группы ученых, включая Шанхайский университет Цзяо Тун (SJTU), представило бенчмарк SWE-Explore, который выставляет неудобную оценку современному автономному DevOps.

Проблема не в том, что модели не умеют программировать, а в том, что они плохо ориентируются в масштабах репозитория. По данным отчета, такие тяжеловесы, как Claude 3.5 Sonnet, GPT-4o и Gemini 1.5 Pro, отлично справляются с навигацией «верхнего уровня» — они без труда находят нужный файл. Однако, когда дело доходит до хирургической точности, показатели обрушиваются. Универсальные кодинг-агенты вычленяют лишь от 14 до 19% строк кода, которые действительно важны для исправления бага.

Налог на невнимательность: экономика пустых токенов

Для технических директоров и руководителей разработки это не просто академический нюанс, а прямая дыра в бюджете. Когда агент «приземляется в правильном районе», но не может найти нужную дверь, он начинает сжигать контекстное окно и токены на анализ мусорного кода. Результат — нулевая окупаемость при раздутых счетах за API. Галлюцинации эволюционировали: теперь это не выдуманные факты, а неспособность ИИ к глубокому структурному анализу иерархии проекта.

Современные агенты — это навигаторы, которые приводят вас на нужную улицу, но заставляют ломиться в окна к соседям вместо того, чтобы открыть дверь ключом.

Текущие системы, включая OpenHands и последние итерации моделей Anthropic, демонстрируют пугающий разрыв между «файловой» и «строчной» точностью. Пока этот разрыв не будет закрыт, любая попытка внедрить полную автономность в производственный цикл без жесткого надзора со стороны инженеров — это игра в рулетку на деньги компании. Будущее не за теми моделями, которые лучше пишут функции, а за теми, кто научится эффективно сканировать структуру кода, не пытаясь поглотить весь репозиторий целиком.

Индустрии пора признать: кодинг-агенты сейчас находятся в стадии стажеров, которые знают синтаксис, но в упор не видят архитектурный контекст. Прагматичный подход требует смены парадигмы — от генерации текста к строгому структурному сканированию.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБольшие языковые моделиСнижение затратИИ в бизнесеAnthropic

Ловушка для CTO: почему AI-агенты сжигают бюджеты на мусорный код