Китайская компания Zhipu AI выпустила GLM-5V-Turbo — мультимодальную модель, которая, как заявлено, способна напрямую преобразовывать дизайн-макеты в исполняемый фронтенд-код. Теперь вместо того, чтобы тратить часы на верстку, вы можете загрузить картинку с вашим видением интерфейса, а модель выдаст вам готовый код. Достичь такого эффекта удалось благодаря новой архитектуре, улучшенным методам обучения и проприетарному Vision Encoder, который, по словам разработчиков, видит изображения, видео и текст одновременно.
GLM-5V-Turbo заточена под работу в рамках AI-агентов. Она претендует на объединение визуального восприятия, планирования и непосредственного исполнения задач. Zhipu AI уверяет, что модель успешно генерирует код и работает как GUI-агент, сохраняя при этом стандартные текстовые возможности. Это, если верить китайским разработчикам, потенциально сокращает цикл разработки пользовательских интерфейсов, замыкая весь контур от «понимания среды» до «выполнения задач».
Модель работает с контекстом до 200 000 токенов, выводя до 128 000. В её арсенале есть режимы мышления, потоковый вывод, вызов функций и кэширование контекста. Zhipu AI утверждает, что благодаря комплексным улучшениям достигла лидирующих результатов на бенчмарках, связанных с генерацией дизайна в код и навигацией в графических интерфейсах.
Что это значит для вас? Появление таких моделей может радикально ускорить разработку веб-интерфейсов и удешевить её. Это значит, что веб-студиям и IT-отделам придется всерьез задуматься о пересмотре своих процессов, а роль дизайнеров и фронтенд-разработчиков может оказаться под угрозой. Рынок труда, похоже, готовится к очередным переменам.