C114讯 9月17日消息(颜翊)9月11日,第26届中国国际光电博览会同期举行的“超万卡智算集群新型光技术发展论坛”上,海思光电子有限公司总监梁亦铂发表题为《Copper or Fiber?AI DC的高速互联方案选择》的主题演讲,探讨了AI时代下数据中心互联技术的发展方向。
梁亦铂指出,当前大型智算中心必须依赖大量光互联实现跨机柜、跨系统的高效连接,即便是目前采用电互联方案的领先厂商,在构建更大规模集群时也必将转向光方案。
数据中心互联技术三大趋势
梁亦铂认为,当前,数据中心互联技术存在三大趋势。
首先,过去光通信行业主要由电信运营商驱动。当前,OTT成为了投资主力,运营商逐步掉队。他引用LightCounting数据指出,当前全球顶级OTT企业的营收和资本支出已全面超越传统通信运营商。无论是收入还是基础设施投入,腾讯、阿里、Meta、Google等云厂商已成为光通信产业的核心驱动力。
第二,在AI驱动下,数据中心正从“以网络为中心”向“以计算为中心”转变。在AI智算中心,网络的角色发生根本变化——不再只是连接工具,而是计算总线的延伸。其流量特征为持续满带宽、高吞吐、低时延,带宽利用率普遍超过80%,且对误码和闪断近乎零容忍。一次万卡集群的训练回滚,经济损失可达300万元。这种严苛要求决定了AI数据中心必须依赖更可靠、确定性的光互联底座。
是光模块厂商向中国聚集,但高端芯片仍受制于人。据LightCounting统计,2025年全球前十大光模块厂商中,中国企业占据7席,彰显封装集成能力的全球领先地位。然而,多数国产厂商的底层核心芯片仍严重依赖进口,尤其是来自美国的Coherent、Cisco、Marvell等公司。值得欣慰的是,国内产业界已意识到这个问题。越来越多的光模块企业开始向上游延伸,布局自研芯片。目前,国内已在56G及以下速率实现光电芯片自主可控。
在这样的技术演进与产业变革背景下,光互联已成为中美在全球AI竞争中角力的重要一环。
中美AI全链条呈“双雄并立”
AI竞争的本质并非单一技术点的比拼,而是整个技术链条的系统性较量。梁亦铂将其归纳为三大要素——算力、模型与应用。
算力方面,尽管受限于先进工艺获取,我国在单芯片性能(如GPU制程、HBM带宽等)上仍落后于美国,但通过系统级创新,尤其是光互联技术的优势,华为等企业已实现超大规模集群的系统能力反超。事实表明,AI集群无法仅靠“铜互连”扩展,大规模组网必须依赖光互联,“光进铜退”是必然趋势。
模型方面,中美差距正快速缩小。斯坦福数据显示,美国大模型领先优势从2023年的31.6%收窄至2024年的3.7%。以DeepSeek为代表的开源模型不仅性能强劲,且显著降低训练对算力的需求,推动行业“轻量化训练、重化推理”转型,削弱了对高端GPU的依赖,也促使部分企业放弃重复研发,转向基于开源模型二次创新。
应用方面,中国在AI Agent领域展现出更强活力。MINIMAX、flowith等企业在人机交互、情感陪伴、任务执行等场景表现突出。相比美国主推B端SaaS模式,中国更擅长C端突破与垂直行业融合,依托庞大用户数据和应用场景,在用户体验与商业模式上具备独特优势。
综上,尽管底层算力存在短板,但凭借系统补强、模型开源与应用突围,中国已在AI全链条形成与美国“双雄并立”的竞争格局。
光不贵,也并非不可靠
针对业界长期存在的两大误解,梁亦铂特别作出澄清:一是“光贵”是误解。虽然光模块单价高于铜缆,但在整个AI数据中心成本结构中,服务器占比超80%,光互联整体成本不足10%。让一个占比不到10%的部件承担主要降本压力,并不合理。
二是“光不可靠”实为运维问题。数据显示,AI集群中29%的光链路故障中,64.7%由端面污染引起,仅9.3%为模块本体失效。梁亦铂表示,某些IT工程师把400G光模块当网线插拔,揣口袋里再装回去,但光纤端面极易污染,造成误码或中断。这不是光模块脆弱,而是操作不规范。一旦发生闪断,排查耗时极长。
为应对超大规模集群挑战,海思光电子推出两大核心技术:一是StarSensor 星云智检:支持分钟级、厘米级全链路故障定位,可精准定位脏污、弯折、破损等问题,相较传统压测方案效率提升60倍,检出率和准确率提高200%以上。
二是StarMatrix 星云光互联解决方案:针对AI智算中心的特殊需求,海思光电子打造了专属的光模块产品体系:基于其自研芯片平台,支持DSP直驱、去TC设计,在功耗、性能、传输距离上全面领先。目前,已在华为最新发布的384卡AI超节点系统中部署6912个基于该平台的光模块,全面支撑长周期、满负载的大模型训练任务。