C114讯 9月11日消息(水易)当前,人工智能与实体经济深度融合的特征更加明显,开始赋能千行百业、走进千家万户,成为经济增长的新引擎。与此同时,人工智能应用百花齐放,算力需求呈指数级增长,引发“算力焦虑”,催生智算中心建设热潮。
“智能算力建设供给与算力需求存在矛盾,小而散、异构化、碎片化问题突出。”2025年中国光博会(CIOE)期间,中国电信研究院副院长李俊杰介绍,目前智算中心呈现“东部为主、向中西部扩展”的分散特征;分批次建设导致标准不一、规模各异、算力性能参差;且单智算中心往往存在资源利用率不足,传统GPU利用方式难以提升资源利用率。
面对这一局面,亟需通过“以网强算”,打造覆盖全国的一体化智算基础设施。与此同时,大模型训练和推理等工作需要在大量的计算单位中传递海量数据,需要作为承载底座的光网络具备超大规模、超大带宽、超高可靠、超低时延的关键特征。
智算时代光通信新技术探索
在应对超大规模智算需求,李俊杰介绍,应当探索通过光网络实现跨集群、跨区域的多数据中心协同,采用多智算节点下的超大规模分布式训练方式,解决“零散算力资源闲置”与“高质量大算力难求”的供需矛盾。
超大带宽方面:将持续提升单波速率,200GBaud将成为主要发展方向。同时,波分复用(WDM)传输系统还将向着多波段扩展,进一步提升容量,但是多波段扩展还需解决多波段器件、系统优化与产业成熟度等问题。此外,CPO/LPO/LRO等新型封装与架构设计有效提升集成度并优化超高速性能。
超高可靠方面:模型训练对光网络故障极其敏感,丢包率/光层故障对GPU有效计算时间影响较大。研究数据显示,光层掉波会损失40%的算效,断纤时间超过50ms对业务影响明显;网络系统的多个环节故障,导致训练中断,对于整体训练效率和成本也会产生极大的损耗。为此,可通过快速协议+极速WSS+DSP的创新,在ROADM全光网中构建电信级50ms保护机制,实现快速恢复。同时,引入光纤感知与 AI 分析,基于 OTDR 或 DSP 提取温度、应变、振动、共路由等多状态参量,建立端到端性能模型,提升光网络整体可靠性。
超低时延方面:以1750亿参数规模的GPT-3模型训练为例,从理论估算模型分析,当时延从10us提升至1ms时,GPU有效计算时间占比将降低接近10%。因此,需优化光缆网布局,加快重点IDC(含通算、智算)光缆资源建设,解决算力枢纽间光缆直连资源不足以及时延较高的问题;此外,探索引入具备低时延特性的空芯光纤,在相同时延圈下,具有更广的覆盖范围,或将成为算网有力解决方案。同时,通过超低采样率处理、简化结构、集成化处理单元等方案创新DSP算法,实现低时延、低功耗光系统。
智算时代光通信新技术实践
李俊杰表示,面向AI业务大规模算力需求,中国电信基于光交换机与大容量光网络,积极推进低时延入算、超大规模智算中心组网,以及跨域一体化试验等关键技术研究,构筑智能时代坚实光底座,推动智算基础设施高质量发展。
入算(DCA)方面:M-OTN/OSU技术是面向城域优化的光传送网技术,通过引入灵活映射的光业务单元(OSU),为智算时代的全光运力网络提供低时延、高可靠、灵活带宽配置的综合业务承载。目前,中国电信已在多个省市完成M-OTN/OSU技术现网试点和试商用,为客户提供专线服务和入算服务,时延降低效果显著。
算内(DCN)方面:基于全光交换机(OCS)可实现智算DCN网络的新架构,有效提升超大规模集群的性能、扩展性与灵活性。未来,需进一步降低光口切换速度、提升交换维度,以及创新动态路由与管控方式,提高系统的整体效率。
中国电信完成全球运营商首个基于光电协同的DCN新架构,面向未来智算中心超万卡集群规模组网挑战,GPU点到点通信时延下降14%,集群网络功耗降低19%,可靠性提升17%。
算间(DCI)方面:基于800G C+L技术,满足多数据中心分布式训练对数据传输中带宽、可靠性与规模的需求,融合业界首创的50ms WSON技术,构筑超大带宽、超高可靠与超大规模的海量数据运力光网。
中国电信在全国三大核心ROADM网络区域内/间进行400G/800G混合速率传输现网试点,结果表明400G骨干ROADM网络具备400G/800G双速率混传及混合WSON全光调度能力,支持现有400G ROADM网络平滑升级至800G。
据介绍,中国电信基于百公里真实节点环境开展模型拉远训练效果系列试验验证,实现了两点到多点,百卡到千卡,800G C波段到C+L波段,带宽收敛比1:1到32:1等技术指标突破,向行业全面展示了长距无损智算网支撑分布式智算集群的创新路径。