光通信
`
2026/1/22 15:34

阿里云席永青:“UPN+HPN”双轨并进,构建下一代AI基础设施

0
0

C114讯 1月22日消息(九九)新年伊始,CIOE中国光博会联合C114举办的“2026中国光通信高质量发展论坛”如期开启。第一期聚焦“AI超节点互连架构演进”,深入探讨光互连在高性能AI集群中的可行性与落地路径,推动“以网强算、以光赋智”理念在算力基础设施中的实践落地。

阿里云资深网络架构师席永青在22日举行的首场论坛上表示,单靠增加GPU数量并不能线性提升训练效率,在超大规模集群中,真正决定集群性能上限的往往不是计算单元,而是连接这些单元的网络,“高性能网络系统定义集群化算力”。

那么,如何让网络性能从“尽力而为”(Best-effort)变成“可预期”(Predictable),成为AI Infra竞争的新高地。

席永青介绍,过去几年,阿里云围绕高性能、高可靠、高性价比三大核心诉求,开展全栈式网络架构创新。未来将通过HPN+UPN双轨并进,构建起支撑训推一体、万卡协同的下一代AI基础设施。

HPN:万卡集群的智能高速公路

席永青进一步介绍,HPN(High-Performance Network)是阿里云面向大规模分布式训练与推理打造的高速网络。其核心目标是在复杂混合负载下,依然提供微秒级低时延、近100%带宽利用率和跨地域一致体验。

这并非易事。早期AI训练流量规整、可预测,但随着RLHF(人类反馈强化学习)、MoE(混合专家模型)、在线推理等新范式兴起,网络流量变得高度动态、突发性强、时延和吞吐都很敏感。

为此,阿里云采取端网融合的新型数据中心网络架构HPN:硬件层,自研400G/800G智能网卡与51.2T/102T超大容量交换机,并率先引入硅光技术降低成本;协议层,迭代自研RDMA协议,支持多路径传输与精细化流控;软件层,推出高性能通信库ACCL,在兼容主流框架的同时,针对专家并行(EP)、PD分离等场景深度优化。

阿里云智算网络架构HPN7.0已在实践中验证成效;新一代训推一体智算网络架构HPN 8.0,采用多平面CLOS架构+IPv6 Native设计,不仅支持单可用区数十万卡规模,还能实现跨地域RDMA互联与端到端QoS保障,真正打通训推一体的“最后一公里”。

UPN:用破解Scale-up困局

如果说HPN解决的是Scale-out问题,那么UPN(Ultra-Performance Network)则直面未来Scale-up的终极挑战。

行业普遍预测,未来的AI机柜将集成512甚至1024颗xPU。如此高密度算力若仍依赖传统电互联将面临三大困境:物理限制,电信号衰减严重,难以支撑长距离高速传输;可靠性风险,高密度布线导致故障率飙升,生产良率难爬坡。

“阿里云的答案是:把光放进机柜里。”席永青说。UPN采用LPO/NPO全光互联技术,在单机柜内部构建光速通信网络。其设计哲学是“解耦”:解耦硬件,回归标准设备形态,避免定制化“小型机”陷阱;LPO/NPO可靠性提升,成本降低,光链路路径更简单、被动器件更多,系统可用性提升3倍以上;解耦性能,基于单层以太网拓扑,可协议简化,引入在网计算。一套“组合拳”使得性能提升的同时,成本反降30%。

席永青强调,UPN不仅是一次技术跃迁,更是一种新范式的开启——它让高密度算力单元既拥有小型机的性能,又具备分布式标准系统的灵活性与经济性。

阿里云将基于HPN+UPN的协同设计,构建一个超大规模、低时延、高可靠、低成本、可扩展的智算底座。

版权说明:凡注明来源为“C114通信网”的文章皆属C114版权所有,除与C114签署内容授权协议的单位外,其他单位未经允许禁止转载、摘编,违者必究。如需使用,请联系021-54451141。其中编译类仅出于传递更多信息之目的,系C114对海外相关站点最新信息的翻译稿,仅供参考,不代表证实其描述或赞同其观点,投资者据此操作,风险自担;翻译质量问题请指正

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销