湖北移动与华为完成全国首个运营商AI推理加速方案验证

C114通信网

在2026 MWC 上海展期间，华为与中国移动通信集团湖北有限公司（以下简称“湖北移动”）联合宣布，双方已成功完成全国运营商首个AI推理加速解决方案现网测试。该测试基于华为OceanStor A800存储与昇腾A3超节点架构，搭载UCM (Unified Cache Manager，推理记忆数据管理)，在长序列AI推理场景下，实现了Token吞吐率最高可提升372%的突破性成果，为运营商智算业务的高效部署提供了重要技术支撑。

技术方案创新：华为UCM破解长序列推理瓶颈

随着AI应用加速向Agent（智能体）形态演进，长上下文序列（如代码生成、多轮对话）已成为典型场景，但传统算力卡高带宽内存容量有限，严重制约了KV Cache的命中率。华为在2025年底重磅推出了UCM推理记忆数据管理技术，打破高带宽内存和DRAM的容量限制，通过外置存储提供PB级的KV Cache，并对KV Cache进行全生命周期的分层管理与调度，不仅在单次对话时大幅扩展上下文窗口，还能在多轮对话中复用历史KV Cache，避免重复计算，实现AI推理“更优体验、更低成本”。

测试性能倍增：多模型验证显示TTFT与TPS均实现显著优化

本次测试在湖北移动现网环境中部署vLLM-Ascend框架，针对MiniMax M2.5、GLM-5.1等主流大模型，模拟了8K至190K长序列输入场景。测试结论如下：

- MiniMax M2.5模型场景下：启用UCM后，首Token延迟（TTFT）优化26%~62%，单NPU卡Token输出效率（TPS）有大幅提升。从不同序列长度分别来看，64K的序列长度下TPS提升58%，在128K序列环境下，TPS提升78%。
- GLM-5.1模型场景下：TTFT优化幅度达51%~93%，TPS提升56%~372%。其中在64K序列长度下，TPS提升313%，在128K序列环境下，TPS提升372%。

测试表明，随着上下文长度增加，AI推理加速方案优势持续放大，有效解决了长序列推理中的KV Cache容量瓶颈。

价值凸显：赋能Agentic时代关键业务

湖北移动相关负责人指出：“湖北地处到全国八大算力枢纽区域10毫秒的时延圈核心区，本次测试验证了算力、网络、存储协同的必要性。在“龙虾”Agent交互、代码生成等场景中，AI推理加速解决方案可使吞吐性能提升50%以上，为湖北移动AI业务规模化落地奠定基础。”

行业展望：重构AI数据基础设施

华为全球数据存储Marketing与解决方案销售总裁邱峰表示：“随着各大运营商陆续推出Token套餐，标志着AI智能体规模化应用进入新阶段，预计未来Token消耗量将呈现指数级增长。AI推理加速解决方案不仅显著优化首Token时延，还有助于大幅降低Token成本，助力运营商构建高效、绿色的智算基础设施。”

本次测试的成功，标志着运营商在智算基础设施协同优化领域取得重要进展，为全球AI产业提供了可复制的技术范本。

2026 MWC 上海于6月24日至6月26日在中国上海举行。华为展区位于上海新国际博览中心（SNIEC）N1馆。2026年，ICT产业正加速迈向Token经营新时代，华为将与全球运营商、合作伙伴一起，携手共进，围绕联接和计算能力跃升，探索5G-A大上行&体验经营、AI焕新主营业务创新实践，紧抓Token经营时代的机遇。

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好