Китайская Zhipu AI в очередной раз заявляет о себе, представив GLM-5.1. В компании утверждают, что это не просто очередная модель для генерации кода, а система с продвинутыми навыками итеративной самокоррекции стратегии. Главный козырь — способность менять подход к решению задачи, избегая тупиковых путей, которые останавливают другие ИИ. По заявлениям Zhipu AI, на бенчмарке SWE-Bench Pro, имитирующем реальные рабочие сценарии программистов, GLM-5.1 обошла Claude Opus 4.6 и, предположительно, одну из версий GPT-4 (Zhipu AI оперирует версией 5.4, что само по себе любопытно на фоне официальной нумерации OpenAI). Модель, судя по описанию, методично ищет новые пути, иногда кардинально меняя направление. В Zhipu AI объясняют это «тысячами вызовов инструментов» и многократными переосмыслениями. Звучит амбициозно, но пока это слова разработчиков — независимых подтверждений ожидаем.
Ключевая заявленная фишка — механизм самопересмотра стратегии — действительно выглядит многообещающе. На примере оптимизации векторной базы данных Zhipu AI демонстрирует, как модель, начав с полного перебора, на 90-й итерации переключается на кластеризацию, а к 240-й добавляет двухэтапную обработку. Всего было зафиксировано шесть таких структурных изменений. После более чем 600 итераций GLM-5.1 достигла 21 500 запросов в секунду — это в шесть раз больше, чем у Claude Opus 4.6 (3 547 запросов/сек). Аналогичные успехи, полученные в контролируемой среде Zhipu AI, демонстрируются в оптимизации кода для GPU, где заявлено 3,6-кратное ускорение. Эти результаты, полученные в рамках лабораторных тестов, намекают на реальный потенциал для автоматизации сложных, многоэтапных разработок. Пока же это выглядит скорее как эффектный демонстрационный стенд, чем готовое решение для производственных нужд.
Сами разработчики Zhipu AI достаточно откровенны: GLM-5.1 — это только «первый шаг». В задачах, требующих глубокого понимания контекста и обширных знаний, модель пока уступает лидерам рынка, таким как Google и OpenAI. Их сила — в универсальности и широте кругозора. Поэтому, пока независимые тесты не подтвердят заявления, GLM-5.1 стоит рассматривать как любопытную заявку на будущее, а не как состоявшийся прорыв, готовый перекроить рынок.
Почему это важно: GLM-5.1 сигнализирует о принципиально новом направлении развития ИИ — способности не просто генерировать код, а самостоятельно пересматривать стратегию его создания. Если заявленные возможности самокоррекции подтвердятся в реальных условиях, это может стать настоящим триггером для автоматизации сложных, многоуровневых разработок, где стандартные подходы уже не справляются. Пока это скорее горизонт планирования, но сам потенциал для сокращения трудозатрат инженеров в долгосрочной перспективе заслуживает самого пристального внимания. Тех, кто сегодня инвестирует в разработку ПО, стоит держать руку на пульсе, но не спешить выкладывать деньги за «сырую» технологию, ожидая первых независимых бенчмарков.