Логика vs Память LLM: исследование коллапса композиции

Ваша языковая модель может с пугающей точностью цитировать даты и имена, оставаясь при этом органически неспособной связать их в элементарную логическую цепочку. Исследователи Же Ю, Вэньпэн Син и их коллеги вскрыли фундаментальную проблему современных нейросетей — «коллапс композиции» (composition collapse). Это системный сбой при попытке собрать разрозненные, но хорошо известные модели факты в единое целое. Самое неприятное здесь то, что этот дефицит логики остается невидимым для стандартных метрик, по которым индустрия привыкла судить о качестве ИИ.

Провал усредненных метрик

Сегодняшние бенчмарки вроде HotpotQA оценивают многоходовые рассуждения (multi-hop reasoning) по среднему баллу. Растет точность — значит, модель «умнеет», полагаем мы. Однако реальность куда ироничнее: методы дообучения могут выдавать модели с идентичным уровнем владения атомарными фактами, но с разрывом более чем в 40 процентных пунктов в их логическом объединении. На бумаге перед вами два одинаково эрудированных «эксперта», но один из них функционален, а второй — логический инвалид. Традиционные способы измерения связности мышления часто путают обычную нестабильность памяти с глубокими когнитивными дефектами.

Модели с неотличимым уровнем знаний фактов демонстрируют разрыв в 40% в способности строить логические связи на их основе.

Чтобы отсечь информационный шум, авторы исследования внедрили протокол «двойного шлюза». Эта методология изолирует ошибки композиции от проблем с доступом к памяти. Только когда модель подтверждает стабильное знание каждого отдельного звена цепи, проверяется её умение их соединять. Исследование показало, что успехи при дообучении часто распределяются по трем каналам: стабильность фактов, остаточная композиция и критическая глубина. Как выяснилось, прогресс в одной области легко маскирует деградацию в другой.

Лимиты вычислительного времени

Используя бенчмарк временных цепочек глубиной от 2 до 11 шагов, ученые обнаружили: то, что разработчики выдают за «улучшение логики», часто оказывается лишь повышением стабильности хранения данных. Диагностические пробы указывают на еще один нюанс: часть провалов — это не отсутствие «ума» как такового, а нехватка вычислительных ресурсов в момент генерации. Проще говоря, у модели может быть достаточно данных для логического вывода, но ей не хватает операционных мощностей (computational overhead), чтобы прожевать сложную цепочку за один проход.

Методы дообучения смещают способности к синтезу в направлениях, которые полностью игнорируются агрегированными показателями.

Для бизнеса это означает прямой риск: высокие баллы в общих тестах не гарантируют ровным счетом ничего в сложных многоэтапных рабочих процессах. Интегрируя ИИ в критические задачи, где вывод зависит от цепочки доказательств, вы подписываетесь на «галлюцинации связей». Модель корректно назовет Факт А и Факт Б, но выдаст на их основе Факт В, который логически невозможен. Пока индустрия не перейдет к метрикам, контролирующим атомарные связи, внедрение ИИ в консалтинг или аналитику напоминает найм сотрудника, который вызубрил библиотеку, но не понимает, как книги в ней связаны между собой.

Результаты исследования обнажают структурный риск: погоня за объемом памяти убивает связность мышления. Обнаруженный 40-процентный разрыв намекает, что популярные методы «полировки» моделей могут фактически разрушать их архитектурную логику ради красивых цифр в отчетах. Руководителям пора осознать, что средние показатели вендоров — это пустой звук для задач, требующих строгой дедукции. Успех будет зависеть от способности измерять именно остаточный коллапс композиции на конкретной «критической глубине» вашего домена, а не от общей эрудиции алгоритма.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиМашинное обучениеДообучение моделейИИ в бизнесе

Логический паралич ИИ: почему эрудированные модели проваливают простые выводы

Провал усредненных метрик

Лимиты вычислительного времени