Эра проприетарных «колодцев данных» как главного оборонительного рва в индустрии беспилотников упирается в бетонную стену. Годами барьер входа в этот закрытый клуб определялся не столько мощностью «железа», сколько объемом мультимодальных данных, необходимых для обучения безопасных систем. Команда Yaak и Hugging Face LeRobot фактически обрушила эти стены, выпустив Learning to Drive (L2D) — крупнейший в мире открытый датасет для обучения нейросетевого вождения.

Масштабы L2D впечатляют: более 90 терабайт данных и 5000 часов видео. Для сравнения: хваленый датасет Waymo предлагает скромные 0,5 терабайта, а NuScenes ограничивается пятью часами. По всей видимости, Yaak пытается провернуть в робототехнике тот же трюк, который открытые корпуса текстов проделали с языковыми моделями: превратить элитарную технологию в общедоступный конструктор.

Масштаб данных и мультимодальная глубина

Техническая начинка L2D прямо намекает на отказ от модульных «костылей» с ручным кодированием в пользу сквозного пространственного интеллекта. Данные собирали три года силами 60 электромобилей в 30 городах Германии. В комплект входят записи с шести HD-камер, данные GPS, IMU и полная телеметрия автомобиля. В отличие от «поверхностных» наборов данных, L2D фиксирует не только газ и тормоз, но и дискретные действия, такие как использование сигналов поворота или переключение передач.

«L2D — это крупнейший в мире мультимодальный датасет, нацеленный на создание открытого пространственного интеллекта для автомобильной сферы».

Такая глубина позволяет обучать модели, понимающие естественный язык: от навигации по круговому движению до проезда трамвайных путей по конкретной команде. Важно, что авторы не ограничились идеальным автобаном. В датасет включены разные типы покрытия — от асфальта до брусчатки — и суровые погодные условия, включая снег и дождь. Это заставляет ИИ адаптироваться к физической реальности, а не к стерильным симуляциям.

Логика субоптимальности

Самый ироничный и стратегически выверенный ход в L2D — это намеренное включение записей учеников наряду с действиями экспертов. Пока инструкторы демонстрируют эталон, ученики совершают ошибки, создавая базу для обучения на контрастах. Этот переход к прозрачным, рассуждающим архитектурам выглядит как прямая пощечина «черным ящикам» отраслевых гигантов.

Ключевые выводы

— L2D предоставляет более 90 ТБ данных и 5000 часов вождения, что по объему оставляет Waymo далеко позади. — В датасет вшиты инструкции на естественном языке и сравнение действий экспертов с новичками для обучения моделей сложным маневрам. — Релиз демократизирует R&D, позволяя игрокам второго эшелона и стартапам обойтись без миллиардных затрат на содержание собственного флота для сбора данных.

Публикация такого массива данных — безусловный вызов капиталоемким технологическим стекам Tesla. Однако остается открытым вопрос: хватит ли одних лишь данных без вычислительных мощностей уровня суперкомпьютера Dojo, чтобы создать действительно безопасный автопилот. Датасет теперь общий, но счета за электричество при обучении моделей по-прежнему придется оплачивать из своего кармана.

Опенсорс ИИКомпьютерное зрениеРоботизацияHugging Face