Google выпустил PaliGemma 2 Mix — семейство компактных vision-моделей (3B, 10B и 28B), которое наглядно демонстрирует: эпоха гигантомании в AI-зрении подходит к концу. Пока рынок следил за универсальными комбайнами вроде GPT-4V, команда Google сосредоточилась на «дистиллированном» интеллекте для конкретных индустриальных задач. Модели семейства Mix дообучены на жестком наборе данных: от OCR и анализа инфографики до детального описания изображений и визуальных вопрос-ответных систем.
Главное в релизе
Компактные веса (3B, 10B, 28B) позволяют запускать модели на локальных серверах. Специализация на OCR, анализе инфографики и визуальных ответах (VQA). Поддержка высокого разрешения до 896x896 пикселей для работы с мелкими деталями. Значительное снижение совокупной стоимости владения (TCO) за счет отказа от облачных API.
Основная цель PaliGemma 2 — предоставить предобученные чекпоинты, которые адаптируются под узкую задачу быстрее и точнее любого универсального чат-бота.
Главная ценность этого релиза для бизнеса заключается в возможности наконец-то слезть с «иглы» дорогих и медленных облачных API. С весами 3B или 10B качественное распознавание теперь запускается на локальных серверах или Edge-устройствах. В ритейле это означает контроль полок без задержек на передачу данных в облако, в логистике — моментальную автоматизацию OCR на складах.
Переход к специализированным малым моделям — это не просто техническое обновление, а способ вывести компьютерное зрение из стадии «дорогих игрушек» в стадию массового внедрения с предсказуемым TCO. Для технического директора это сигнал к действию: вместо того чтобы жечь бюджет на универсальные модели, пора тестировать чекпоинты на конкретных производственных кейсах. Контроль над инфраструктурой и скоростью инференса становится важнее, чем абстрактный «общий интеллект» модели.