NVIDIA и H Company заявляют о презентации Holotron-12B, который они позиционируют не просто как очередную мультимодальную модель, а как «компьютерного агента». Под этой броской вывеской скрывается дообученная на собственных данных модель NVIDIA Nemotron-Nano-2 VL. Главное заявленное отличие — акцент на полном цикле «восприятие, решение, действие» (perception, decision, action), в отличие от пассивного анализа данных, свойственного большинству современных мультимодальных систем. В H Company уверяют, что оптимизация под "high throughput computer use" и длинные контексты с изображениями нацелена на реальные продакшн-задачи, а не на красивую отчетность.
Если отбросить PR-штампы, то за этим стоит попытка обойти ограничения классических трансформеров, где вычислительные затраты растут квадратично с длиной контекста. Holotron-12B использует гибридную архитектуру, комбинирующую механизмы внимания с моделями пространства состояний (SSM). SSM, по задумке, должны снизить потребление памяти, сохраняя лишь актуальное состояние. На этом основании H Company рапортует о двукратном приросте пропускной способности на бенчмарке WebVoyager, который якобы имитирует работу 100 агентов. Однако, без указания конкретных моделей-конкурентов и деталей условий тестирования, эти цифры выглядят как типичные для индустрии многообещания, которые мы слышим регулярно.
Теперь о главном: что это значит для бизнеса. Если Holotron-12B действительно окажется способен к самостоятельным действиям в интерактивных средах, имитируя поведение пользователя, это может перевернуть автоматизацию рутинных IT-операций. Вместо того чтобы просто анализировать логи или логировать действия, агент сможет сам устранять ошибки, оптимизировать процессы или выполнять сложные многошаговые задачи. Потенциальное снижение стоимости вычислений и ускорение ресурсоемких операций — это реальная перспектива, но она требует подтверждения, а не слепой веры. Сравнение с другими мультимодальными моделями, такими как GPT-4V или Gemini, пока остается туманным: H Company не уточняет, в каких именно задачах («perception», «decision», «action») их модель превосходит конкурентов, и какие именно конкуренты участвовали в бенчмарке WebVoyager. На данный момент, это больше похоже на стратегию «мы сделали лучше», чем на конкретное технологическое преимущество.
Почему это важно: CEO, рассматривающие внедрение подобных технологий, должны перестать верить на слово. Прежде чем инвестировать в Holotron-12B, требуйте демо-версию для решения конкретной бизнес-задачи. Оценивайте не абстрактный «прирост пропускной способности», а реальное время выполнения задачи, количество ошибок и стоимость ресурсов по сравнению с текущими показателями или альтернативными решениями. Запрашивайте спецификации бенчмарка WebVoyager, включая список сравниваемых моделей, и понимайте, что «агент» — это не волшебная палочка, а сложный инструмент, требующий тщательной интеграции и валидации. Без этого велика вероятность купить очередной красивый, но бесполезный маркетинговый ход.