移动平台
2026/6/26 14:28

对话华为肖德刚:存储成Token经营关键,CMS助力运营商跑出加速度

0
0

C114讯 6月26日专稿(蒋均牧)进入2026年,对于信息通信业而言最显著的变化之一就是Token经营时代来了。继在年报中写入“Token经营”后不久,国内三大运营商几乎在同一时间段密集推出Token套餐,将AI大模型的调用能力打包成商品推向市场,定价区间覆盖了从尝鲜到重度使用的各个层级。

不过,“卖Token”和“卖流量”的逻辑完全不同,同时在市场上还面临着大模型厂商、OTT企业等对手的竞争。如何助力运营商实现Token经营的规模化落地与可持续发展,已然成为产业界共同面对的课题,在2026年世界移动通信大会·上海(MWCSH 2026)期间亦被反复讨论。

对此,华为数据存储产品线副总裁肖德刚接受C114专访时给出了清晰的判断:运营商作为Token提供商,提供高质量Token是第一要务,要又快又准、高性价比,还要高可靠。而华为推出的业界首个支持异构算力的上下文记忆存储方案CMS(Context Memory Storage),正是面向这个目标设计的系统级答案。

最终用户Token服务需求解读

传统的流量经营模式触顶,Token承载着运营商接力增长的期望。中国移动将Token定义为连接算力、模型、应用与用户的“通用货币”,中国电信直言“智能云体系就是Token经营体系”,中国联通则提出“Agent+Token+AI云”范式。肖德刚强调,运营商在规模化算力资源、海量客户基础与良好品牌口碑等方面积累深厚,具备运营 Token 服务的天然优势。

Token经营有很多指标,但站在最终用户角度,无论个人终端用户、政企行业客户,还是自主运行的Agent智能体,他们对Token服务的需求存在着几点共性:

首先,上下文要足够长,才能处理复杂任务。肖德刚指出,简短对话场景仅能实现基础问答和轻量化辅助办公,完整业务流程、行业知识库检索、智能体多步骤自主任务全都依赖长上下文完成完整信息载入。因此,长上下文处理能力是进入生产系统最核心的指标。当下,对上下文长度的需求正急剧扩张,现阶段商用模型普遍支持64K至128K序列窗口,头部大模型已实现百万级上下文处理能力,中长期产业需求将触及千万级上下文区间。

同时,客户不关注过程,服务交付的直观感受主要集中在输出结果与响应速度——输出要足够准,这是可用性的底线;首Token时延和平均时延要足够低,体验才跟得上。此外,使用成本要足够省,商业模式才跑得通;服务还要足够稳,不能掉链子。

这五个“足够”,表面上是模型能力,实则都与存储息息相关:例如超长上下文意味着KV Cache数据量指数级增长,低时延要求更高的缓存数据吞吐效率,高可靠则依赖存储介质持久耐用。Fortune Business Insights的报告指出,2025年全球AI存储市场规模为359亿美元,预计市场将从2026年的449.4亿美元增长到2034年的2713.2亿美元,预测期内复合年增长率为25.20%。这也折射出Token经济起势下,对存储基础设施的刚性需求正在快速释放。

华为CMS:助力运营商加速迈向Token经营

Token经营要形成商业闭环,首先得把承载Token的基础设施打磨到位,华为CMS的意义正在于此。实测数据显示,该方案可将每Token成本降低约30%,首Token时延缩短90%。

超长上下文需求的本质是超大的KV数据量。如何容纳这些数据,驱动了架构的必然演变——从传统的“高带宽内存+DRAM+本地盘”,走向“高带宽内存+DRAM+外置共享存储”。肖德刚介绍说,CMS基于这一逻辑,在原有G1到G4层(高带宽内存-DRAM-SSD-共享文件/对象)之间新增了一个G3.5层,提供更大容量和带宽,支持KV语义级直通,并可扩展为PB级共享KV缓存池。利用外置存储解决KV Cache瓶颈已成为行业共识,英伟达在今年3月提出的CMX方案也指向同一方向。

针对输出效率,华为在CMS中采用了KV语义硬化和NDS直通技术,摒弃传统多级数据转发模式,实现数据一跳直达NPU的片上内存,将数据访问时延降低50%,有效解决了NPU算力闲置、等待数据加载的行业性难题。

在输出准确性方面,业界通常通过构建知识库来导入行业知识、更新外部信息,并借助记忆库沉淀用户交互历史。肖德刚表示,华为存储可以向客户提供对应模组,这一做法在其他行业已有实践,未来值得与运营商进一步加强合作,深入探讨。

在成本方面,相比基于服务器本地盘的方案,华为CMS存储方案在同等KV Cache容量需求下可减少两倍的存储节点配置,从而降低节点采购费用,以及机架空间租赁和水电等运营成本;此外,其节能领先2.35倍,显著降低了整体TCO及推理成本。

在可靠性方面,针对KV Cache读写频繁、对SSD擦写次数要求更高的情况,华为CMS支持1到20的动态DWPD,可根据实时业务负载调整擦写配额;采用双模介质动态分层技术,高速介质承载低时延核心缓存数据,大容量介质存储低频复用历史上下文,两类介质弹性配比,保证Token高质量输出同时兼具性价比。

面向未来,肖德刚表示,除了持续推进现有 AI 能力建设外,华为数据存储还将探索Physical AI 领域,并研究其在具身智能、智能工厂等场景中落地的可能性。

从流量到Token,运营商的商业模式正在经历深刻重构。在这场重构中,存储不再是被动承载数据的“仓库“,而成为了主动参与推理、优化成本、保障体验的关键变量。华为CMS作为一个实例,通过持续的创新突破,帮助运营商在Token经营的新赛道上,跑出更快、更准、更经济,更稳的加速度。

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销