在2026 MWC 上海展期间,华为与中国移动通信集团湖北有限公司(以下简称“湖北移动”)联合宣布,双方已成功完成全国运营商首个AI推理加速解决方案现网测试。该测试基于华为OceanStor A800存储与昇腾A3超节点架构,搭载UCM (Unified Cache Manager,推理记忆数据管理),在长序列AI推理场景下,实现了Token吞吐率最高可提升372%的突破性成果,为运营商智算业务的高效部署提供了重要技术支撑。
技术方案创新:华为UCM破解长序列推理瓶颈
随着AI应用加速向Agent(智能体)形态演进,长上下文序列(如代码生成、多轮对话)已成为典型场景,但传统算力卡高带宽内存容量有限,严重制约了KV Cache的命中率。华为在2025年底重磅推出了UCM推理记忆数据管理技术,打破高带宽内存和DRAM的容量限制,通过外置存储提供PB级的KV Cache,并对KV Cache进行全生命周期的分层管理与调度,不仅在单次对话时大幅扩展上下文窗口,还能在多轮对话中复用历史KV Cache,避免重复计算,实现AI推理“更优体验、更低成本”。
测试性能倍增:多模型验证显示TTFT与TPS均实现显著优化
本次测试在湖北移动现网环境中部署vLLM-Ascend框架,针对MiniMax M2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。测试结论如下:
- MiniMax M2.5模型场景下:启用UCM后,首Token延迟(TTFT)优化26%~62%,单NPU卡Token输出效率(TPS)有大幅提升。从不同序列长度分别来看,64K的序列长度下TPS提升58%,在128K序列环境下,TPS提升78%。
- GLM-5.1模型场景下:TTFT优化幅度达51%~93%,TPS提升56%~372%。其中在64K序列长度下,TPS提升313%,在128K序列环境下,TPS提升372%。
测试表明,随着上下文长度增加,AI推理加速方案优势持续放大,有效解决了长序列推理中的KV Cache容量瓶颈。
价值凸显:赋能Agentic时代关键业务
湖北移动相关负责人指出:“湖北地处到全国八大算力枢纽区域10毫秒的时延圈核心区,本次测试验证了算力、网络、存储协同的必要性。在“龙虾”Agent交互、代码生成等场景中,AI推理加速解决方案可使吞吐性能提升50%以上,为湖北移动AI业务规模化落地奠定基础。”
行业展望:重构AI数据基础设施
华为全球数据存储Marketing与解决方案销售总裁邱峰表示:“随着各大运营商陆续推出Token套餐,标志着AI智能体规模化应用进入新阶段,预计未来Token消耗量将呈现指数级增长。AI推理加速解决方案不仅显著优化首Token时延,还有助于大幅降低Token成本,助力运营商构建高效、绿色的智算基础设施。”
本次测试的成功,标志着运营商在智算基础设施协同优化领域取得重要进展,为全球AI产业提供了可复制的技术范本。
2026 MWC 上海于6月24日至6月26日在中国上海举行。华为展区位于上海新国际博览中心(SNIEC)N1馆。2026年,ICT产业正加速迈向Token经营新时代,华为将与全球运营商、合作伙伴一起,携手共进,围绕联接和计算能力跃升,探索5G-A大上行&体验经营、AI焕新主营业务创新实践,紧抓Token经营时代的机遇。 






































