Для команд, обучающих модели рассуждать, долгое время существовала простая догма: если цепочка мыслей (Chain-of-Thought, CoT) приводит к правильному ответу, это качественный сигнал для обучения. Однако исследователи из Китайского университета электронных наук и технологий и Сингапурского университета технологии и дизайна (SUTD) обнаружили критический изъян в этой логике. Их работа «Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces» доказывает, что даже «правильные» цепочки могут радикально различаться по результатам файнтюнинга. Проблема кроется в явлении, которое авторы назвали post-conclusion continuation — это те самые хвосты рассуждений, которые тянутся по инерции уже после того, как финальный ответ был логически обоснован.
Анатомия вредной инерции
Когда модель продолжает «рассуждать» после того, как логика уже достигла насыщения, она не просто сжигает токены. Она активно деградирует процесс SFT (supervised fine-tuning). Исследовательская группа под руководством Чэнь Хэ, Юйхао У и Лэй Вана утверждает, что эти избыточные фрагменты работают как низкокачественный шум. Анализ показал специфический «разрыв между неопределенностью и геометрией»: предсказания модели остаются нестабильными, а прогресс в геометрии скрытых состояний (hidden-state geometry) к терминальной цели практически замирает. Проще говоря, цепочка начинает «блуждать» в пустоте, когда работа уже сделана.
«Мы наблюдаем улучшение результатов SFT после удаления выявленных редактором пост-заключительных продолжений. Это прямо указывает на то, что подобная инерция вредна для обучения».
Чтобы подтвердить гипотезу, исследователи применили «delete-only» редактор. Этот инструмент не переписывает данные (что могло бы внести лишние переменные), а хирургически отсекает суффиксы, идущие за обоснованным ответом, сохраняя префикс и корректность. Результат закономерен: удаление «мусорных хвостов» повысило эффективность обучения на последующих этапах. С точки зрения методологии, длинная цепочка рассуждений перестает быть полезной в тот момент, когда она входит в фазу низкой ценности. Обучая модель на таких данных, вы просто заставляете её имитировать нестабильные и непродуктивные паттерны мышления.
Пересмотр стандартов качества данных
Это открытие ставит под удар индустриальный стандарт фильтрации SFT-датасетов по конечному ответу. Если правильность ответа больше не гарантирует качество траектории, разработчикам нужны более тонкие инструменты очистки. В качестве решения команда представила HarmfulContinuationCut (HCC) — легковесный прокси-инструмент для определения границ полезного. HCC находит точку, где заканчивается логика и начинается «вредная инерция», позволяя проводить селекцию данных чище, чем традиционные методы или переписывание цепочек сторонними моделями.
Для индустрии это означает переход от погони за объемом к гигиене структуры обучающих данных. Наличие несоответствия между неопределенностью и логическим прогреммом в лишних токенах доказывает: обучая модель на «добавке», вы учите её ценить локальный хаос выше логического результата. Техлидам стоит признать прагматичный факт: ваши Long-CoT датасеты, скорее всего, перенасыщены логическим мусором. Фильтрация по правильному ответу — это лишь гигиенический минимум, а настоящая работа начинается там, где нужно вовремя остановиться и отсечь лишнее.