Коллапс моделей: чем опасны синтетические данные для ИИ

Линейная деградация ИИ-моделей — это вчерашний день и слишком оптимистичный сценарий. Свежее исследование Сянъю Ванна на arXiv доказывает: мы имеем дело не с постепенным угасанием, а с полноценной эпидемией. Индустрия превратилась в сеть, где тысячи моделей «поедают» данные из общих корпусов, выплевывают синтетический мусор и тем самым повторно заражают источники, из которых пьют. По прогнозам, к 2025 году объем ИИ-контента в поисковой выдаче вырастет вчетверо, замыкая петлю обратной связи, которая планомерно уничтожает качество генерации.

Ванн предлагает анализировать этот хаос через двухслойную модель SIR/SIRS, где массивы данных и нейросети рассматриваются как две взаимодействующие популяции. В этой схеме токсичные данные «инфицируют» модели при обучении, а те, в свою очередь, передают синтетические артефакты обратно в общие пулы.

Исследование вводит показатель базового репродуктивного числа (R0) для синтетики: в трех изученных сценариях динамика оказалась суперкритической (R0 > 1). Это значит, что заражение распространяется быстрее, чем мы успеваем его купировать.

Модель SIRS также учитывает «угасание иммунитета» — даже если вы вычистили датасет и переобучили модель, со временем они неизбежно подвергнутся реинфекции. Эксперименты с GPT-2 наглядно подтверждают эту дозозависимую деградацию: метрика разнообразия текста Distinct-2 рухнула с 0,68 до 0,38.

Главное в исследовании:

Смешивание данных из разных источников лишь немного замедляет процесс, но не останавливает его — доминирующим фактором провала остается сам факт наличия синтетики. Анализ чувствительности Соболя показывает, что единственным рычагом влияния остается детекция синтетического текста. Пока компании продолжают бездумно скармливать моделям все, что выкачал веб-краулер, индустрия будет находиться в состоянии эндемического равновесия с постоянно снижающейся отдачей.

Стратегия «просто наберем побольше данных из интернета» стала токсичной. Без радикального перехода к жесткой верификации происхождения контента рекурсивное поглощение собственных отходов приведет к необратимому упрощению моделей. Эпоха легкого масштабирования за счет объема закончилась — наступает эра иммунологии данных, где качество фильтрации важнее количества терабайт.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектМашинное обучениеБольшие языковые моделиБезопасность ИИ

Эпидемия синтетики: почему нейросети глупеют, поедая собственный контент