Новости
Последние обновления инструментов, релизы и важные события из мира вайб-кодинга
Загрузка...
Последние обновления инструментов, релизы и важные события из мира вайб-кодинга
Китайская Zhipu запустила API GLM-5.1-highspeed, который выдает 400 токенов в секунду без потери качества модели. Это меняет правила игры для AI-агентов.
10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.
Об авторе →Zhipu AI выпустила GLM-5.1: 8 часов автономного кодинга и победа над Opus 4.6
Китайский гигант представил модель GLM-5.1, которая работает автономно до 8 часов и обходит топовые западные нейронки в SWE-bench Pro.
Релиз GLM-5.1: Zhipu AI вплотную приблизилась к Claude в кодинге
Китайский гигант Zhipu выпустил обновление GLM-5.1. Модель показала значительный скачок в тестах на написание кода, догоняя Claude Opus 4.6.
Zhipu запустила GLM-5.1-HighSpeed: 400 токенов в секунду для AI-агентов
Китайский гигант Zhipu AI представил скоростную версию флагмана GLM-5.1. Модель выдает стабильные 400 TPS, поддерживает MCP и контекст 200K.
Рекордные 400 токенов в секунду: Zhipu представила GLM-5.1 High-Speed
Китайская Zhipu выпустила API GLM-5.1 High-Speed, который выдает 400 токенов/с — это в 3-4 раза быстрее GPT-4o и Claude 3.5 Sonnet.
Релиз GLM-5.1: Open-weight модель от Z.ai обошла GPT-5.4 в кодинге
Китайская Z.ai выпустила GLM-5.1 — MoE-модель на 754B параметров, которая на релизе возглавила SWE-Bench Pro, опередив топовые проприетарные модели.
Эпоха Open-Weight: GLM-5.1 обошла GPT-5.4 и Claude 4.6 в кодинге
За 60 дней рынок AI-моделей изменился навсегда: GLM-5.1 от Z.ai возглавила рейтинг SWE-Bench Pro, а релизы Llama 4 и Gemma 4 стерли грань между открытыми и закрытыми моделями.
Китайский гигант Zhipu (один из лидеров в разработке LLM) официально представил GLM-5.1 Highspeed API. Главная фишка релиза — феноменальная скорость генерации в 400 токенов в секунду (TPS). На текущий момент это мировой рекорд для публично доступных API среди моделей такого класса.
До этого момента в индустрии действовал негласный компромисс: либо ты используешь «тяжелую» умную модель с высокой задержкой, либо переходишь на легковесные модели (вроде Haiku или Flash) ради скорости. GLM-5.1 Highspeed ломает эту парадигму, предлагая возможности флагманской модели при ультра-низком пинге.
Для тех, кто строит продукты на базе AI-агентов, такая скорость — это не просто «приятный бонус», а переход на новый уровень проектирования:
Стабильные 400 TPS стали возможны благодаря сотрудничеству с командой TileRT. Вместо стандартных фреймворков, которые используют динамическое планирование задач (scheduling), TileRT применяет AOT-статическое планирование (Ahead-of-Time).
Весь граф вычислений компилируется в «постоянное ядро» (persistent GPU kernel). Вычисления, ввод-вывод данных и коммуникация между чипами разбиваются на микро-задачи уровня «тайлов». Это минимизирует накладные расходы на память и синхронизацию, которые обычно тормозят генерацию на малых батчах.
На данный момент доступ к GLM-5.1-highspeed открыт для корпоративных клиентов, но технология задает новый стандарт для всего рынка API, к которому неизбежно подтянутся Anthropic и OpenAI.