Эпоха тяжеловесных проприетарных VLA-моделей (Vision-Language-Action) получила первый серьезный вызов со стороны периферийных вычислений. Исследователи Дана Аубакирова, Андрес Марафиоти и Лубна Бен Аллал представили SmolVLA — компактную модель на 450 миллионов параметров, которая доказывает: открытая архитектура и эффективный код способны положить на лопатки системы, превосходящие их по размеру в десятки раз. Пока индустрия бредит гигантскими кластерами и закрытыми датасетами, SmolVLA-450M обходит базовые решения вроде ACT в симуляторах LIBERO и Meta-World. Это не просто вопрос экономии, а фундаментальная смена парадигмы — переход от аренды мощностей у облачных гигантов к обучению на потребительском «железе».

Architectural Efficiency Through Layer Skipping and Flow Matching

Вместо того чтобы раздувать модель до неприличных размеров, команда SmolVLA пошла по пути хирургической оптимизации Vision-Language (VLM) базы. Ключевое решение — агрессивное сокращение визуальных токенов и чередование блоков self-attention и cross-attention. Это позволяет системе сохранять остроту восприятия, радикально снижая задержку. На выходе здесь не типичный трансформер, а Action Expert на базе Flow Matching. Гибридная механика обрабатывает потоки RGB-изображений с нескольких камер, сопоставляет их с голосовыми командами и сенсомоторным состоянием, после чего выдает команды для манипулятора.

SmolVLA устраняет разрыв в доступности технологий, предлагая открытую и компактную VLA-модель, которую можно натренировать на «домашних» GPU, используя только публичные данные.

Такой подход дезавуирует идею, что бесконечное масштабирование LLM — единственный путь для развития физических агентов. Предварительное обучение на данных общих манипуляций обеспечило модели достойный уровень обобщения. Разработчики выложили в открытый доступ полные рецепты обучения и инференса, нацелившись на конкретное железо — роборуки SO-100 и SO-101. Это прямой сигнал рынку: разработка робототехники уходит в сторону локальной децентрализации.

Asynchronous Inference and the End of Latency Bottlenecks

Главный прагматичный прорыв проекта — стек асинхронного вывода. В классических схемах робот часто замирает, ожидая окончания обсчета модели. Стек SmolVLA физически разделяет процесс выполнения действий и визуальный анализ. В результате, как следует из отчета, время отклика сократилось на 30%, а общая пропускная способность задач выросла вдвое. На практике это означает, что робот остается реактивным: если вы толкнете объект в процессе захвата, машина среагирует мгновенно, не дожидаясь завершения текущего цикла вычислений.

Технология разделяет «мозг» и «руки»: робот понимает, что он видит, параллельно с движением, что критически важно в динамичной среде.

Рост производительности достигнут без требования серверных GPU. Успех модели во многом обязан сообществу LeRobot, которое стандартизировало ракурсы камер и аннотации задач. Становится очевидным, что бутылочное горлышко в робототехнике сегодня — не дефицит данных, а неумение эффективно распоряжаться ими внутри компактных архитектур. Для бизнеса это означает радикальное снижение порога входа в автоматизацию: вам больше не нужны подписки на закрытые API и серверные стойки. Хотя SmolVLA еще предстоит доказать свою состоятельность в неструктурированном хаосе реального мира, сам факт того, что 450 млн параметров достаточно для сложного манипулирования — это уже научный приговор стратегии масштабирования ради масштабирования.

РоботизацияЛокальный ИИОпенсорс ИИКомпьютерное зрениеSmolVLA