Современные мультимодальные модели страдают от когнитивного дефекта, который инженеры DeepSeek метко окрестили Reference Gap. Суть в том, что нейросети неплохо распознают картинку в статике, но стоит им пуститься в пространственные рассуждения, как они моментально сваливаются в текстоцентричность. В этот момент связь с геометрией объектов обрывается: модель «видит» изображение, но начисто теряет привязку к его элементам в процессе логического вывода. Для бизнеса, завязанного на точности — от складской логистики до промышленной дефектовки — такая «амнезия» превращает внедрение AI в лотерею.

Команда DeepSeek предложила решение, заставляющее модель буквально «тыкать пальцем» в экран во время раздумий. Вместо того чтобы ограничиваться словами, нейросеть внедряет в цепочку рассуждений (Chain-of-Thought) визуальные примитивы — конкретные координаты точек и ограничивающие рамки (bounding boxes). Механика выглядит здраво: система сначала фиксирует область фокуса, а затем строит логический шаг, опираясь на эти маркеры. Координаты перестали быть побочным продуктом пост-обработки и стали полноценной частью «внутреннего монолога» модели. На наш взгляд, это важный сдвиг от вероятностного угадывания к инженерной навигации в сложных сценах.

Техническая начинка при этом остается классической: кодировщик Vision Transformer (ViT) и языковая модель на базе смеси экспертов (MoE). Однако изменение протокола мышления дает ощутимый профит в структурных задачах — от точного подсчета объектов до трассировки линий в запутанных схемах. Любопытно, что DeepSeek оперативно отозвала публикацию без объяснения причин. Мы расцениваем это не как признак ошибки, а скорее как подготовку к захвату ниши специализированных мультимодальных агентов: такие данные слишком ценны, чтобы оставлять их в сыром виде.

Эксперимент подтверждает наш давний тезис: для качественного скачка в понимании мира недостаточно раздувать параметры до бесконечности. Нужно менять саму структуру рассуждений, вшивая геометрию в логику. Использование визуальных примитивов внутри CoT позволяет минимизировать галлюцинации там, где требуется строгая топологическая точность. Несмотря на элегантность математики, связка ViT и MoE все еще крайне прожорлива в плане ресурсов, но для индустриальных систем, где цена ошибки критична, этот путь выглядит наиболее перспективным.

Компьютерное зрениеНейросетиИИ в бизнесеDeepSeek