Hugging Face, платформа, которая уже стала синонимом обмена AI-моделями и датасетами, не собирается останавливаться. На днях они проглотили XetHub — стартап, чья фишка заключалась в том, чтобы заставить Git хоть как-то работать с гигантскими объемами данных и моделей, что обычному Git LFS явно не по зубам. Команда XetHub, кстати, поднаторела на внутренних ML-инфраструктурах в Apple, так что инжиниринговый багаж у них солидный. Теперь они отправятся строить новый бэкенд для Hugging Face Hub.
Как язвительно отметил CTO Hugging Face Жюльен Шомон (Julien Chaumond), прощайте, старые проблемы с Git LFS, привет, собственное решение. Оно будет куда более шустрым для терабайтных датасетов и моделей, ведь экспоненциальный рост параметров никуда не денется. Цель — не просто добавить новую кнопку в интерфейс, а перестроить скелет всей платформы, чтобы ускорить релизы и, конечно, снизить ваши будущие расходы на хранение.
Представьте: вам нужно обновить всего одну строку в 10-гигабайтном файле Parquet. По старой схеме — выкидывай всё и заливай заново. С технологией XetHub, построенной на чанкинге и дедупликации, вы будете загружать лишь крошечный фрагмент с изменениями. То же с моделями: апдейт метаданных в 405-миллиардной махине потребует загрузки пары килобайт, а не гигабайтов. Удобно, не правда ли?
Почему это вообще имеет значение? Hugging Face, фактически монополизируя инфраструктуру хранения и версионирования, поднимает планку для всех остальных. Это явно не понравится Google и Microsoft с их более громоздкими решениями. А для вас, как для пользователя, это, скорее всего, означает более быструю разработку и потенциально более низкие тарифы. Взамен — еще большая зависимость от этого единого центра притяжения всего AI-сообщества. Насколько это действительно масштабируемая история и как она повлияет на конкуренцию с облачными гигантами, покажет ближайшее будущее. Но уже сейчас понятно: Hugging Face перекраивает рынок под себя.