对话华为肖德刚：存储成Token经营关键，CMS助力运营商跑出加速度

C114通信网蒋均牧

C114讯 6月26日专稿（蒋均牧）进入2026年，对于信息通信业而言最显著的变化之一就是Token经营时代来了。继在年报中写入“Token经营”后不久，国内三大运营商几乎在同一时间段密集推出Token套餐，将AI大模型的调用能力打包成商品推向市场，定价区间覆盖了从尝鲜到重度使用的各个层级。

不过，“卖Token”和“卖流量”的逻辑完全不同，同时在市场上还面临着大模型厂商、OTT企业等对手的竞争。如何助力运营商实现Token经营的规模化落地与可持续发展，已然成为产业界共同面对的课题，在2026年世界移动通信大会·上海（MWCSH 2026）期间亦被反复讨论。

对此，华为数据存储产品线副总裁肖德刚接受C114专访时给出了清晰的判断：运营商作为Token提供商，提供高质量Token是第一要务，要又快又准、高性价比，还要高可靠。而华为推出的业界首个支持异构算力的上下文记忆存储方案CMS（Context Memory Storage），正是面向这个目标设计的系统级答案。

最终用户Token服务需求解读

传统的流量经营模式触顶，Token承载着运营商接力增长的期望。中国移动将Token定义为连接算力、模型、应用与用户的“通用货币”，中国电信直言“智能云体系就是Token经营体系”，中国联通则提出“Agent+Token+AI云”范式。肖德刚强调，运营商在规模化算力资源、海量客户基础与良好品牌口碑等方面积累深厚，具备运营 Token 服务的天然优势。

Token经营有很多指标，但站在最终用户角度，无论个人终端用户、政企行业客户，还是自主运行的Agent智能体，他们对Token服务的需求存在着几点共性：

首先，上下文要足够长，才能处理复杂任务。肖德刚指出，简短对话场景仅能实现基础问答和轻量化辅助办公，完整业务流程、行业知识库检索、智能体多步骤自主任务全都依赖长上下文完成完整信息载入。因此，长上下文处理能力是进入生产系统最核心的指标。当下，对上下文长度的需求正急剧扩张，现阶段商用模型普遍支持64K至128K序列窗口，头部大模型已实现百万级上下文处理能力，中长期产业需求将触及千万级上下文区间。

同时，客户不关注过程，服务交付的直观感受主要集中在输出结果与响应速度——输出要足够准，这是可用性的底线；首Token时延和平均时延要足够低，体验才跟得上。此外，使用成本要足够省，商业模式才跑得通；服务还要足够稳，不能掉链子。

这五个“足够”，表面上是模型能力，实则都与存储息息相关：例如超长上下文意味着KV Cache数据量指数级增长，低时延要求更高的缓存数据吞吐效率，高可靠则依赖存储介质持久耐用。Fortune Business Insights的报告指出，2025年全球AI存储市场规模为359亿美元，预计市场将从2026年的449.4亿美元增长到2034年的2713.2亿美元，预测期内复合年增长率为25.20%。这也折射出Token经济起势下，对存储基础设施的刚性需求正在快速释放。

华为CMS：助力运营商加速迈向Token经营

Token经营要形成商业闭环，首先得把承载Token的基础设施打磨到位，华为CMS的意义正在于此。实测数据显示，该方案可将每Token成本降低约30%，首Token时延缩短90%。

超长上下文需求的本质是超大的KV数据量。如何容纳这些数据，驱动了架构的必然演变——从传统的“高带宽内存+DRAM+本地盘”，走向“高带宽内存+DRAM+外置共享存储”。肖德刚介绍说，CMS基于这一逻辑，在原有G1到G4层（高带宽内存-DRAM-SSD-共享文件/对象）之间新增了一个G3.5层，提供更大容量和带宽，支持KV语义级直通，并可扩展为PB级共享KV缓存池。利用外置存储解决KV Cache瓶颈已成为行业共识，英伟达在今年3月提出的CMX方案也指向同一方向。

针对输出效率，华为在CMS中采用了KV语义硬化和NDS直通技术，摒弃传统多级数据转发模式，实现数据一跳直达NPU的片上内存，将数据访问时延降低50%，有效解决了NPU算力闲置、等待数据加载的行业性难题。

在输出准确性方面，业界通常通过构建知识库来导入行业知识、更新外部信息，并借助记忆库沉淀用户交互历史。肖德刚表示，华为存储可以向客户提供对应模组，这一做法在其他行业已有实践，未来值得与运营商进一步加强合作，深入探讨。

在成本方面，相比基于服务器本地盘的方案，华为CMS存储方案在同等KV Cache容量需求下可减少两倍的存储节点配置，从而降低节点采购费用，以及机架空间租赁和水电等运营成本；此外，其节能领先2.35倍，显著降低了整体TCO及推理成本。

在可靠性方面，针对KV Cache读写频繁、对SSD擦写次数要求更高的情况，华为CMS支持1到20的动态DWPD，可根据实时业务负载调整擦写配额；采用双模介质动态分层技术，高速介质承载低时延核心缓存数据，大容量介质存储低频复用历史上下文，两类介质弹性配比，保证Token高质量输出同时兼具性价比。

面向未来，肖德刚表示，除了持续推进现有 AI 能力建设外，华为数据存储还将探索Physical AI 领域，并研究其在具身智能、智能工厂等场景中落地的可能性。

从流量到Token，运营商的商业模式正在经历深刻重构。在这场重构中，存储不再是被动承载数据的“仓库“，而成为了主动参与推理、优化成本、保障体验的关键变量。华为CMS作为一个实例，通过持续的创新突破，帮助运营商在Token经营的新赛道上，跑出更快、更准、更经济，更稳的加速度。

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好