Слепое доверие к способности больших языковых моделей (LLM) самостоятельно исправлять свои ошибки — прямой путь к деградации системы и бесконечным галлюцинациям. Согласно исследованию, опубликованному в репозитории arXiv (cs.AI), итеративная самокоррекция без внешнего валидатора снижает точность большинства из семи протестированных моделей, включая результаты на бенчмарках GSM8K и MATH. Авторы применили к нейросетям кибернетический подход, рассматривая LLM одновременно как контроллер и как объект управления в замкнутой системе.
Результаты выглядят отрезвляюще: у большинства моделей «запас устойчивости», или коэффициент индукции ошибок (EIR), стремится к нулю. По оценке исследователей, если EIR превышает 0,5%, самоисправление принесет больше вреда, чем пользы. Например, в то время как o3-mini смогла улучшить результат на 3,4 процентных пункта при нулевом EIR, ранняя версия следующего поколения моделей GPT (упомянутая в исследовании) при попытке самокоррекции деградировала на 1,8 пункта.
Для тех, кто принимает решения о внедрении агентских рабочих процессов, предложена прагматичная формула: ECR/EIR > Acc/(1 - Acc). Это соотношение коэффициента исправления ошибок (ECR) к коэффициенту их внесения позволяет техническим лидам рассчитать точку отказа еще до развертывания системы. Как следует из отчета, при внедрении стратегии «сначала проверка» для GPT-4o-mini удалось снизить EIR с 2% до 0%, превратив падение точности на 6,2 пункта в скромный рост на 0,2.
На наш взгляд, пора перестать воспринимать самоисправление как встроенную функцию агентских систем. Это рискованное архитектурное решение. Если запас устойчивости вашей модели не соответствует математическому порогу, вы просто платите за токены, которые делают продукт хуже. Эпоха веры в то, что «больше итераций — лучше результат», официально закрыта: данные требуют архитектуры с приоритетом верификации или отказа от циклов коррекции вовсе.