Слепота внимания в ИИ: почему модели игнорируют угрозы

Главная аксиома безопасности ИИ — «чем мощнее модель, тем она надежнее» — оказалась опасной иллюзией. Исследование Кван Су Шина из PolymathMinds Lab выявило феномен Inattentional Gap (разрыв внимания). Суть проста и пугающе иронична: как только вы даете модели конкретное задание, она подавляет способность сообщать о критических угрозах, которые находятся вне рамок этого поручения. Это не дефект «зрения» или нехватка вычислительных мощностей, а функциональный аналог человеческой перцептивной слепоты, когда радиолог в упор не видит силуэт гориллы на снимке легких, потому что ищет только узлы опухоли.

Механика подавления

В отличие от человеческой слепоты, вызванной когнитивной перегрузкой, цифровой разрыв внимания провоцируется самой структурой инструкций. В работе Кван Су Шина от июня 2026 года под названием «The Inattentional Gap: Task-Conditioned Language and Vision Models Omit the Safety-Critical Signals They Can Otherwise Report» доказано: модели «знают» об опасности. При проверке без ограничений ИИ бодро рапортует о рисках, но стоит поставить задачу — например, следовать за ведущим автомобилем в симуляторе или оценить конкретную патологию на рентгене — и модель превращается в узколобого исполнителя. Она видит периферийную угрозу, но считает ее нерелевантной, просто «забывая» сообщить о ней пользователю.

Inattentional Gap полностью обесценивает современные бенчмарки безопасности: система может идеально находить угрозы, указанные в тестах, оставаясь фатально слепой к любым нетипичным опасностям в реальности.

Этот дефект не лечится масштабированием. Исследование показало, что увеличение количества параметров или использование продвинутых моделей рассуждения (вроде последних итераций OpenAI или Anthropic) не закрывает дыру. Поведение ИИ зависит скорее от архитектурного «семейства», чем от размера. Это ставит крест на надеждах, что следующая версия GPT или Claude магическим образом станет осмотрительнее сама по себе. Мы имеем дело с фундаментальным архитектурным багом: современные системы просто не обучены сообщать о том, что не входит в их текущий KPI.

Архитектура вместо точности

Для бизнеса, внедряющего ИИ в критическую инфраструктуру — от беспилотников до медицинской диагностики — риски переходят из разряда теоретических в структурные. Сегодняшний ИИ работает в режиме «Системы-1», захваченной конкретной задачей. Это создает эффект «туннельного зрения». Автопилот может безупречно держать дистанцию до передней машины, технически фиксировать вылетающий сбоку грузовик, но не предпринять действий, потому что «в инструкции про боковые объекты ничего не сказано».

Мы наблюдаем поведенческий аналог эффекта «невидимой гориллы», но с куда более циничным механизмом: ИИ видит гориллу, но молчит о ней, потому что вы просили считать только пасы мячом.

Проблема в том, что все проверки безопасности сегодня измеряют реакцию на заданные цели. Но реальные катастрофы случаются именно из-за незаданных факторов. Если отчетность модели жестко привязана к контексту задачи, она становится пассивно-агрессивной миной замедленного действия. Исследование Шина подчеркивает: адекватный мониторинг появлялся только в специфических семействах моделей или принудительно — через внедрение отдельного параллельного процесса аудита.

Inattentional Gap — это не баг промпта, который можно поправить «удачным» уточнением. Это системный риск узкоспециализированного внедрения. Для техлидов и архитекторов это сигнал к смене парадигмы: исполнительный слой ИИ должен быть отделен от контрольного. Будущие системы обязаны строиться на дуальной архитектуре, где монитор фоновых сигналов работает независимо от основной задачи. Пока такие параллельные контуры не станут стандартом, любые высокие баллы в тестах безопасности стоит воспринимать лишь как показатель исполнительности ИИ, а не как страховку от катастрофы.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектБезопасность ИИКомпьютерное зрениеБольшие языковые модели

Разрыв внимания в ИИ: почему умные модели становятся слепыми к угрозам

Механика подавления

Архитектура вместо точности