C114讯 2月4日消息(水易)近日,英伟达在一场“面向千兆瓦级AI工厂的共封装硅光交换技术”的网络研讨会上,英伟达网络高级副总裁Gilad Shainer深入介绍了英伟达打造AI超级计算机的方法,以及CPO技术在提升能效和系统可靠性方面所扮演的关键角色。
CPO破局光互连功耗挑战
Gilad Shainer表示,现代AI基础设施的核心理念是“数据中心即计算机”。他强调,AI工作负载依赖大量计算单元协同运作,而网络正日益成为决定整个系统能力的关键因素。
他将AI超级计算机描述为由四大基础设施组成:一是Scale-up,通过NVLink将英伟达H100 GPU互连,形成所谓的“机架级GPU”;二是Scale-out,采用Spectrum-X以太网作为端到端网络架构,连接多个机架,支持跨数十万颗GPU的分布式AI工作负载;三是上下文内存存储,满足推理阶段对低延迟、高吞吐存储的需求;四是Scale-across,基于Spectrum-X的技术方案,当单个站点受电力或物理空间限制时,可将多个数据中心连接成一个统一的计算引擎,目标是构建“千兆瓦级”AI工厂。
光互连技术在其中发挥着重要作用。不过他指出,随着每一代带宽翻倍,光网络的功耗也在持续上升,目前已接近计算资源总功耗的10%。因此,在电力受限的数据中心中,降低光互连功耗可直接转化为更高的有效算力。
CPO技术将原本置于外部可插拔光模块中的光引擎,集成到交换芯片的同一封装内。通过缩短电通道长度并减少信号转换环节,英伟达预计可显著降低功耗并提升信号质量。他提到,当前可插拔光模块功耗约为20-25瓦,而CPO方案可在Scale-out基础设施中实现最高5倍的功耗节省。
除能效外,CPO还能减少组件和所需激光器数量,提升数据中心整体可靠性,并延长“首次中断时间”(time to first interrupt)。Gilad Shainer表示,英伟达已为Spectrum-X以太网平台和Quantum-X InfiniBand平台开发了支持CPO的交换机,并与生态合作伙伴共同推进封装工艺、光纤连接方式及液冷设计方案。
正面回应规模部署“质疑”
在问答环节,Gilad Shainer表示,英伟达预计CPO的部署将于今年启动。目前已宣布三家合作伙伴CoreWeave、Lambda和德克萨斯高级计算中心(TACC)将在今年上半年部署基于Quantum-2 InfiniBand平台的CPO系统。Spectrum-X以太网平台的CPO产品计划于今年下半年开始出货。
关于CPO的可靠性,他指出,可插拔光模块的可靠性问题多源于人为操作,如清洁、插拔、意外触碰等都容易损坏光模块。而CPO将光引擎集成到交换机封装内部,并对整个系统进行一体化验证,可有效减少灰尘污染和人为操作风险,从而提升系统韧性。英伟达已经与合作伙伴打造全系统制造测试流程,确保部署前整机100%验证,而非单一组件。
被问及与台积电的合作时,Gilad Shainer强调,双方共同开发的共封装工艺注重可靠性和可测试性。他还提到,早期CPO尝试多采用较大的基于MZM的光引擎,而英伟达则采用基于微环调制技术的小型化光引擎,以适配高密度大端口AI网络。此外,英伟达还开发了光纤对准技术和高功率激光器,以进一步减少所需激光器数量。
针对CPO相比可插拔方案在灵活性方面的劣势,Gilad Shainer承认CPO需预先选定特定技术,但他称英伟达的方案已覆盖典型数据中心内部距离,甚至可连接园区内不同建筑,从而减少数据中心内对多种光模块类型的需求。对于超长距离,如跨城市数据中心互连,他仍建议使用传统可插拔光模块。
面对“按需付费”(pay-as-you-go)模式下可插拔光模块更具成本弹性的质疑,Gilad Shainer回应称,AI超级计算机通常以高利用率为目标,并采用高度优化的拓扑结构,客户往往会一次性部署满配基础设施。在此场景下,CPO不仅能降低资本开支(CAPEX)和运营支出(OPEX),还能提升系统可靠性。
基于上述优势,Gilad Shainer认为,超大规模云服务商会积极采用CPO。对于下一代产品的演进方向,他表示,主要包括更大端口数交换机、更高光连接密度与数据吞吐量、新型光纤-交换机连接技术、更高密度全液冷机架等。








































