Post

智谱联合提出下一代大模型推理网络架构ZCube,破解PD分离引发的结构性网络拥塞

币界网
币界网
币界网消息,智谱联合驭驯网络与清华大学提出下一代大模型推理网络架构ZCube,旨在破解大模型PD(prefill-decode)分离部署中日益严峻的结构性网络拥塞难题。ZCube架构已在GLM-5.1 coding千卡线上生产环境落地。该架构通过取消spine层交换机,采用全网扁平化拓扑(2跳网络直径),结合单/多轨混合接入机制,实现了跨节点全网交换机之间的流量负载均衡。在基准测试中,ZCube架构相比传统架构减少了33%的交换机与光模块硬件支出,同时GPU平均推理吞吐率提升了15%,首token时延(TTFT)P99分位数下降了40.6%。

Disclaimer: OKX Orbit content is provided for informational purposes only. Learn more

Replies

No comments yet. Be the first to reply!