Zhipu.AI меняет облачную эксклюзивность на грубую локальную скорость. 15 апреля 2025 года пекинский гигант выложил в открытый доступ карты своего следующего поколения: серию GLM-4 и инференс-модели GLM-Z1. Пока западные конкуренты чахнут над проприетарными весами, Zhipu.AI выкатывает портфель под либеральной лицензией MIT и запускает международный домен Z.ai. Это не жест академической доброй воли, а агрессивный захват территории на глобальном рынке инференса. Цель проста: зацементировать доминирование до того, как компания выйдет на IPO.

Архитектура на 200 токенов в секунду

Технологическое ядро экспансии — модель GLM-Z1-32B-0414. По заявлениям разработчиков, она в восемь раз быстрее DeepSeek-R1. И это не теоретические цифры на промышленных кластерах: модель выдает 200 токенов в секунду на обычном «потребительском» железе. За счет оптимизации GQA (Grouped-Query Attention), жесткого квантования и спекулятивного сэмплинга инженеры Zhipu.AI добились скорости, которая в 50 раз превышает возможности человеческого чтения.

GLM-Z1 выдает 200 токенов в секунду на обычных GPU — это в 50 раз быстрее, чем вы способны читать.

Для технических директоров (CTO) это меняет правила игры: вместо зависимости от облачного провайдера они получают «суверенитет на периферии». В релиз вошла базовая GLM-4-32B-0414, заточенная под работу агентов: поиск в сети, использование внешних инструментов и генерация кода (HTML, CSS, JS, SVG) в реальном времени. Выпуская компактные 9-миллиардные версии, Zhipu.AI превращает высокопроизводительный «рассуждающий» ИИ в доступный товар даже для систем с ограниченными ресурсами.

Автономные агенты и модель Rumination

Zhipu.AI пытается выйти за рамки реактивного чат-бота с помощью своей модели «размышления» — GLM-Z1-Rumination-32B-0414. Как утверждают в компании, эта архитектура способна к активному поиску, самопроверке и итеративному решению сложных открытых запросов. Ставка на автономию означает, что будущее корпоративных агентов — в самокоррекции, а не в бесконечном цикле «промпт-ответ». Монетизировать эту историю планируют через платформу Model-as-a-Service (MaaS) с гибкой сеткой тарифов: от сверхскоростного GLM-Z1-AirX до бюджетного GLM-Z1-Air.

Модель Rumination — это попытка создать агента, который умеет проверять самого себя, прежде чем выдать ответ.

Пока Zhipu.AI расширяет присутствие через веб-интерфейс Z.ai и мобильное приложение, стратегия становится очевидной. Сочетание открытых быстрых моделей и мощного API позволяет компании одновременно окучивать сообщество разработчиков и заходить в крупные корпоративные контракты. Такая двухвекторная игра создает огромную пользовательскую базу, которая служит отличным множителем капитализации перед выходом на биржу.

В Zhipu.AI виртуозно упаковали восьмикратный прирост скорости как подарок open-source сообществу именно тогда, когда пришло время готовиться к публичным торгам. Международный домен Z.ai появился ровно в тот момент, когда компании потребовалось дистанцироваться от локальной повестки. Глобальная доступность — удобное знамя для тех, кому нужно доказать инвесторам, что их рост не ограничен границами Китая и дефицитом санкционных чипов.

Опенсорс ИИБольшие языковые моделиИИ-агентыПроизводительностьZhipu.AI