Эпоха гонки за миллиардами параметров в задачах разработки ПО упирается в стену здравого смысла и экономики. Исследование Чарльза Джуничи Макэндрюса, опубликованное на arXiv, наглядно показывает: для моделей размером от 1 до 3 миллиардов параметров наличие контура обратной связи (execution feedback) критичнее, чем сложность топологии пайплайна. Используя локальный инференс на обычном ноутбуке и алгоритм эволюционного поиска NEAT, авторы доказали, что простые циклы «генерация — запуск — исправление» позволяют компактным моделям успешно соревноваться с тяжеловесами на бенчмарках HumanEval и MBPP.
Данные подтверждают: самокоррекция через обратную связь улучшает качество генерации кода более чем на четыре стандартных отклонения. При этом качественный скачок происходит не за счет гениальных алгоритмов, а путем банального устранения ошибок времени выполнения (Runtime-ошибок), таких как NameError и SyntaxError. Любопытное наблюдение для архитекторов: личность «генератора» оказалась менее важна, чем навыки «редактора». Связка из модели на 1.5B параметров в роли автора и модели на 3B в роли корректора работает не хуже, чем одна модель на 3B, совмещающая обе роли. Это прямое указание на то, что специализация все еще побеждает универсальность.
Для технических директоров и тимлидов здесь скрыт важный экономический рычаг. Вместо того чтобы оплачивать проприетарные API и раздутые счета за использование огромных облачных моделей, бизнес может развертывать специализированные локальные системы. Это радикально снижает совокупную стоимость владения (TCO) без потери качества. Однако не обошлось и без отрезвляющих фактов: контур обратной связи отлично справляется с синтаксисом, но почти бессилен против глубоких логических провалов, например, ошибок в утверждениях (AssertionError). Кроме того, исследование предостерегает от бесконечных циклов: без механизма ранней остановки итерации быстро начинают приносить больше вреда, чем пользы.
Инженерный фокус окончательно смещается с поиска «идеальной архитектуры» на создание жестких механизмов верификации. Эволюционный поиск в конечном итоге «переизобрел» простые циклы, а не какие-то экзотические структуры. Более того, выяснилось, что разовые оценки функции приспособленности часто завышают результат на 5–7%, выбирая скорее «удачные», чем стабильно работающие фрагменты кода. Вывод прост: пора перестать переплачивать за модели масштаба 70B+ там, где связка из модели на 3B и качественной тестовой среды выдает сопоставимый результат. Инвестиции в инфраструктуру проверки сегодня окупаются быстрее, чем ожидание очередного «магического» релиза от OpenAI.