400tokens/s 刷新全球纪录!智谱联合TileRT推出 GLM-5.1高速版 API

刚刚 3 阅读 AI小编
智谱今日正式面向部分企业客户推出GLM-5.1高速版API(GLM-5.1-highspeed)。该模型输出速度达到惊人的 400tokens/s,成功刷新当前全球大模型厂商 API 的速度上限。

打破了行业过去“高性能模型必然带来高延迟”或“高速模型只能是轻量级模型”的惯例,GLM-5.1高速版首次在国产大模型中将旗舰级模型能力与极致低延迟同时带入生产环境,用户无需再为响应速度而牺牲模型质量。

QQ20260522-094638.jpg

颠覆传统体验,直击速度敏感场景

在长程任务和复杂生产环境中,速度的提升带来了产品形态的质变:

  • AI 编程(Coding Agent:在完整保留 GLM-5.1强大能力的基础上,新模型实现“即问即答”。模型能一边理解工程上下文,一边持续生成代码与修改方案。在需要数十轮调用的重构项目中,彻底消除了累计数分钟的空等。

  • 实时动态建模:在3D 地图实测中,玩家控制角色移动并输入文字,模型能够瞬时完成建模并实时改变场景。

  • Agent Swarm 并行调度:在长程任务中,模型可在30秒内完成复杂网页处理,并能瞬间调度50个不同人格并行回答,展现出新型操作系统的雏形。

核心技术揭秘:TileRT 高性能推理引擎

400TPS 的稳定生产级能力,得益于智谱 GLM 团队TileRT 团队联合进行的系统级优化:

  1. 推理引擎层(TileRT 编译期 AOT 静态编排):

    传统主流框架以算子(operator/kernel)作为基本调度单元,在单 token、小 batch 场景下会放大调度、访存与同步开销。TileRT 彻底抛弃了 Runtime 层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel。在单卡内,计算、异步 IO 与通信被拆解为 Tile 级微任务,整个推理只 Launch 一次 Kernel,中间结果通过寄存器、Shared Memory 和 L2Cache 直传,不再写回全局内存。

  2. 调度系统层:

    通过动态批处理、请求合并和 KV 缓存调度优化,显著降低了高并发场景下的尾延迟。

  3. 基础设施层:

    在多卡尺度上,TileRT 将 SM 内部的 Warp Specialization 思路扩展到整张8卡 NVL 拓扑,不同 GPU rank 依据计算密度与数据依赖被特化为不同 worker,配合网络链路与负载均衡协同优化,确保高性能的常驻稳定性。

开放计划

GLM-5.1高速版适用于对响应延迟要求极高AI 编程、实时交互、商业决策以及实时语音等场景。目前该服务已正式上线智谱 MaaS 平台并面向部分企业客户开放。智谱官方表示,未来将持续推进推理引擎的工程优化,进一步扩大高速模型的服务能力。

本站部份文章内容有标记原创的请勿转载,如果转载请标记出处(来自AI全能工具箱 https://www.alltool.ai/)。

用户评论