Google подкинул рынку EmbeddingGemma — многоязычную модель эмбеддингов, которая с 308 миллионами параметров обещает работать прямо на устройствах пользователей. Вся соль в том, что это должно разительно удешевить вычисления. К тому же, даже после квантизации, модель не должна пожирать память, что снимает головную боль при интеграции в мобильные RAG-системы, программных агентов и персонализированные сервисы, которые раньше упирались в банальные технические ограничения.

На Massive Text Embedding Benchmark (MTEB) EmbeddingGemma уделала или сравнялась с куда более громоздкими моделями (до 500М параметров), особенно в многоязычных задачах. Это прямой билет для сценариев, где важна скорость и экономия ресурсов: мобильные и edge-решения, где каждый мегабайт — на вес золота. В отличие от гигантов, требующих мощных серверов, EmbeddingGemma позволит обойтись малым.

Для бизнеса это конкретная экономия. Генерировать эмбеддинги локально, на устройствах клиентов или на своих серверах — значит перестать платить за облака OpenAI или Cohere. Там, где облачные провайдеры берут десятые доли цента за эмбеддинг, EmbeddingGemma может быть на порядок дешевле. Итог: ускорение выхода AI-продуктов на рынок и возможность реализовать те идеи, которые раньше казались неподъемными из-за стоимости. Разумеется, мы помним, что лабораторные тесты — это не всегда про реальный мир, особенно с экзотическими данными.

Почему это не просто очередной пиар-ход Google: EmbeddingGemma — это прагматичный шаг к удешевлению и ускорению AI-функций, делающий их по-настоящему пригодными для работы на конечных устройствах. Такие компактные и эффективные модели станут катализатором для появления действительно умных и отзывчивых мобильных приложений, заставят компании пересмотреть бюджеты на AI-инфраструктуру и подкинут работы облачным AI-сервисам, которые теперь будут бороться за каждый доллар.

Искусственный интеллектИИ в бизнесеСнижение затратЛокальный ИИGoogle DeepMind