C114讯 9月11日消息(艾斯)光传输领域正处于技术快速迭代、市场需求旺盛的关键时期,尤其是AI的发展为其带来了新机遇与挑战。
在此背景下,本周在深圳盛大开幕的第二十六届中国国际光电博览会(CIOE中国光博会)举办了“AI时代光传输技术演进论坛”,活动广邀国内电信运营商及系统设备商、头部光纤光缆/光芯片/模块厂商汇聚一堂,并聚焦超高速大容量光传输系统关键技术、新型光纤、光网络架构优化、网络运维、通感一体等AI驱动的新型光传输技术话题展开深入探讨。
腾讯科技(北京)有限公司光网络架构师李方超在此次论坛上就腾讯在数据中心互连(Data Center Interconnect, DCI)网络的IP与光融合创新实践成果进行了详细分享。
算力时代提出DCI新挑战
根据TrendForce研究预测,预计DCI市场2025年产值将增长14.3%,突破400亿美元。DCI主要指用来连接不同地理位置的数据中心的一系列技术,其主要目标是实现数据中心之间的低延迟、高带宽连接。这意味着数据在源数据中心和目标数据中心之间能够快速传输,减少数据包的丢失和延迟。
李方超谈到,在过去的CPU时代,数据中心网络以南北向流量为主,通常处于低负载、低丢包率状态,对时延相对不敏感。到了GPU时代后,超大东西向流量占据主导,算力网络往往处于高负载状态,丢包率要求趋近于零,对时延也变得极其敏感。这一方面带来了对带宽更高的要求,另一方面对网络的稳定与可靠性提出了非常严苛的要求。
腾讯在DCI领域IP与光融合的实践方面处于业界领先地位。其核心思路是打破传统IP层和光层独立管理的“烟囱式”架构,通过自研设备——DCI光传输系统(DTS)和统一控制器,实现跨层的协同融合,最终达到提升网络效率、降低成本和增强可靠性的目的。
TOOP实现光电软硬解耦
李方超将腾讯光网络的演进划分为前TOOP时代与TOOP时代两个不同阶段。TOOP是Tencent Open Optical Platform的缩写,也即腾讯开放光网络平台。
在前TOOP时代,腾讯光网络团队主要解决了DCI从0到1的问题,应付流量的飞速增长,在此期间不同厂商之间的设备互联与管理带来的挑战愈发显著,并导致成本骤升;之后为了应对自身海量数据带来的巨大DCI流量和极高的可靠性要求,腾讯逐渐走上了自研与融合的道路,也因此提出了TOOP框架。
在该框架下,传输系统变成了一个开放的场景,光层与电层完全分离,需求量与成本最高的电层产品在TOC(腾讯光网络控制器)的协助下通过打破封闭从而将单一来源的风险解除。同时TOC配合Tencent Yang的管控模型,将差异化在控制器与设备北向层面完全屏蔽,极大地减少了腾讯对不同供应商产品的学习成本。
在TOOP时代,腾讯首先通过光电解耦引入竞争,利用多厂商电层+异厂商光层混合部署,构建200G+点到点系统;然后过渡至相干器件解耦+多厂商DSP混合部署,实现支持400G+Flex-grid ROADM。通过循序渐进的自研路径,成功实现容量提升与单比特成本下降。
DTS:IP与光融合的创新实践
李方超在演讲中重点介绍了腾讯自研DCI光传输系统。这一软硬件一体的光传输设备是一款跨界融合产品,重点在于IP与光的融合——相干模块提高单端口带宽,解高利用率用塞风险;同时引入微光学模块,解决稳定性问题,基于Pre-FEC检测实现保护切换;并基于开源Sonic架构IP与光不同Docker解决IP over DWDM OAM问题。与此同时,控制器依旧遵循传统维护习惯,光与IP团队运维友好化设计。
“IP与光融合可以应对RDMA跨机房的调整。DTS的出现解决了传统IP over DWDM的缺失,即DTS方案= IP + DWDM + OAM。”李方超表示,DTS IP与光融合方案实现了不降低维护能力,其中的OS优化单独引入DWDM docker实现针对光学OAM的保证,补足了传统IP over DWDM的维护短板,可以像维护波分设备一样维护IP over DWDM。
他指出,DTS更适合跨机房RDMA应用,支持无损DCI系统。在高带宽方面,DTS通过扩充光谱+光纤储备有效解决了成本问题;在高吞吐量方面,DTS当前支持400G端口,下一代支持800G端口;在高可靠性方面,DTS减少了故障收敛时间,引入具备基于信号劣化的故障无损切换能力,同时引入多路径中断自愈能力,引入CDC后可以物理匹配不同路径延时,CDC系统自动匹配两侧ZR+模块,相同FEC自动匹配;在低延时方面,当前技术挑战最大,设备层面通过减少层级光路由解决,但受物理因素限制,目前只有空心光纤满足应用可能。
总的来说,腾讯的DCI IP与光融合实践是一条通过自研底层光传输设备(DTS)、构建统一智能控制器、实现IP层与光层深度协同的技术路径。它不再是简单的“IP over Optical”,而是“IP with Optical”。这套体系不仅解决了大规模DCI网络面临的成本、效率和可靠性挑战,更成为了支撑腾讯云计算、AI大模型等前沿业务发展的强大基础设施基石。