Коллапс LLM: почему ручная модерация не спасет нейросети

Современные нейросети перестали быть пассивными потребителями контента и превратились в конвейеры по производству синтетики, которая стремительно затапливает глобальную инфосферу. Мы входим в фазу «самопоедания»: модели обучаются на данных, рожденных их предшественниками. И если для одиночной LLM ручная модерация еще работает как костыль, то в мультимодельной среде она становится бесполезной. Исследователи из Университета штата Огайо — Ян Чжан, Сикунь Вэй и Сюэру Чжан — обнаружили системный дефект: в экосистеме, где несколько моделей обмениваются результатами работы, человеческая курация не просто буксует, а ускоряет деградацию.

Анатомия мультимодельного инцеста

На практике всё выглядит прозаично: чтобы не тратиться на дорогих живых аннотаторов, разработчики используют инструкции от одной LLM для дообучения другой. Это создает сеть неявных связей, где обновление одного узла перекраивает распределение данных для всей системы. Согласно докладу на 43-й Международной конференции по машинному обучению (ICML), такой режим неизбежно ведет к «коллапсу модели», расхождению смыслов и усилению предвзятости. Математический фреймворк ученых показывает: в отличие от изолированных систем, где человек может выправить вектор обучения, кросс-модельное взаимодействие превращает модерацию в негативный фактор. Положительный эффект фильтров нивелируется или вовсе инвертируется, толкая систему в пропасть.

Почему ручной отбор — это иллюзия контроля

Наивное убеждение, что надзор со стороны людей исправит синтетическую предвзятость, разбивается о математику связанных систем. Как поясняют авторы отчета, курация влияет не только на «свою» модель (self-influence), но и распространяется через цепочку данных на другие (cross-influence). В мультимодельном цикле обратная связь от сторонних нейросетей создает шумы, которые человек просто не в состоянии отфильтровать.

В отличие от изолированных условий, где человеческая курация всегда улучшает выравнивание модели, мы показываем, что кросс-модельные взаимодействия могут ослабить или даже инвертировать этот эффект, в конечном итоге разрушая долгосрочное соответствие целевым параметрам.

Эта инверсия означает, что в зараженной экосистеме человеческий труд лишь консервирует ошибки. Динамическая система сходится к стабильной точке, но эта точка оказывается технологическим тупиком, где качество ответов деградирует необратимо.

Для тех, кто управляет AI-разработкой, это сигнал о критической важности дисциплины данных. Попытка сэкономить на «живых» выборках сегодня превращается в токсичный актив завтра. Мы видим, как сгенерированные данные уже поглощаются поисковыми роботами и вшиваются в будущие пайплайны — коллапс происходит в реальном времени. Ставка на подход human-in-the-loop в условиях, когда базовый пул данных фундаментально испорчен синтетикой, приносит всё меньше пользы. Бизнесу придется признать: сбор первичных, «органических» данных и строгий контроль их происхождения — это не роскошь, а вопрос выживания. Стоимость реанимации рухнувшей модели после «синтетического отравления» окажется кратно выше, чем инвестиции в чистые данные на старте.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеБольшие языковые моделиБезопасность ИИДообучение моделей

Коллапс LLM: почему ручная курация бессильна в мультимодельных системах

Анатомия мультимодельного инцеста

Почему ручной отбор — это иллюзия контроля