IBM выпустила Granite 4.0 3B Vision — мультимодальную модель, заточенную под извлечение данных из корпоративных бумаг. Забудьте про универсальных монстров: эта VLM нацелена на задачи, которые реально двигают бизнес. Точное распознавание таблиц, понимание графиков, извлечение пар «ключ-значение» — пожалуйста. В IBM объясняют, что это LoRA-адаптер к языковой модели Granite 4.0 Micro. Такой конструктор позволяет использовать только текст или добавлять «зрение» в смешанные пайплайны. Ах да, и описывать картинки на естественном языке — это тоже умеет, как и предки.
Hugging Face подхватил модель и выкатил её на свою площадку. Это прямое приглашение для бизнеса: хотите работать с документами гибче и без зависимости от закрытых API гигантов — вот вам решение.
Итого: появление компактных, специализированных моделей на открытых платформах — прямой вызов монополии крупных игроков. Средний бизнес получает рабочие инструменты для конкуренции. Компании, утопающие в документах, теперь могут добиться лучших результатов, не платя за каждую читку текста по цене золота.