Zhipu AI совместно с Университетом Цинхуа опубликовали технический отчет по GLM-5. На текущий момент это самая производительная open-weight модель в мире: она занимает первое место среди открытых весов на Artificial Analysis, лидирует в кодинге на LMArena и обходит даже закрытые модели (GPT-5.2 и Claude 4.5) в тестах BrowseComp и HLE.
Разработчики позиционируют GLM-5 как инструмент для перехода от привычного нам «вайбкодинга» (чат-итераций) к Agentic Engineering. Если обычный вайбкодинг требует от нас ручного переноса кода и правок, то агентный подход подразумевает, что модель сама анализирует репозиторий, пишет патчи, запускает тесты и фиксит ошибки до победного конца.
Технические характеристики и архитектура
GLM-5 построена на архитектуре Mixture of Experts (MoE). Общее количество параметров составляет 744 млрд, из которых активны 40 млрд для каждого токена. Это вдвое больше, чем у предыдущей версии GLM-4.5.
Ключевые инновации:
- DSA (DeepSeek Sparse Attention): Механизм разреженного внимания, который динамически выбирает только важные токены. Это снижает вычислительные затраты в 1.5–2 раза на длинных контекстах (до 128K токенов) без потери качества.
- MLA-256 + Muon Split: Оптимизация сжатия ключей и значений в памяти. Инженеры Zhipu смогли устранить отставание MLA от стандартного GQA, разделив матрицы по отдельным головам (Muon Split).
- Agentic RL: Трехэтапный пайплайн обучения с подкреплением, заточенный под выполнение многошаговых задач и использование инструментов.
Бенчмарки и реальная работа
В тестах BrowseComp (веб-серфинг и поиск) GLM-5 показала результат 75.9%, оставив позади GPT-5.2 (65.8%). На SWE-bench Verified модель вплотную приближается к лидерам рынка, хотя все еще немного уступает Claude Opus 4.5 на самых сложных и длинных дистанциях.
Интересный факт: до официального релиза модель анонимно тестировалась на OpenRouter под кодовым именем «Pony Alpha», где быстро набрала популярность благодаря своим способностям к рассуждению.
Что это значит для вайбкодеров?
Для нас это означает появление мощного и дешевого «движка» для агентов. GLM-5 уже доступна через API у провайдеров DeepInfra ($0.80/$2.56 за 1 млн токенов), Fireworks и SiliconFlow. Это в 5–8 раз дешевле, чем использование Claude Opus 4.6.
Хотя авторы не рекомендуют запускать GLM-5 в продакшене полностью без присмотра, модель идеально подходит для автономного написания тестов, рефакторинга и поиска багов в связке с такими инструментами, как Cursor или Windsurf. Веса модели, код и документация уже открыты на GitHub и Hugging Face.