以开创的超节点互联技术，引领AI基础设施新范式 - 华为

C114
通信人家园
English
公众号矩阵

投稿
举报

量子大观

通信人家园

C114通信网

光通信观察

DVBCN中广5G

2025/9/18 16:45

以开创的超节点互联技术，引领AI基础设施新范式

C114通信网

——徐直军在华为全联接大会2025的主题演讲

[中国，上海，2025年9月18日] 女士们、先生们，各位老朋友、新朋友，大家上午好！欢迎来参加2025年华为全联接大会，时隔一年，很高兴再次与大家相聚在上海。我想大家都能感受到，过去的一年对所有AI从业者、关注者来讲是记忆深刻的一年，DeepSeek横空出世，让全国人民过了一个快乐的AI年，也让所有大模型训练者开启了不知多少个不眠之夜，调整训练方式，复现DeepSeek结果，当然也给我们带来了巨大冲击。从春节开始，到今年4月30日，经过多团队的协同作战，终于使Ascend 910B/910C的推理能力达成了客户的基本需求。

在进入今天的具体分享之前，请允许我回顾一下去年的HC，我讲到了如下几点：

第一、智能化的可持续，首先是算力的可持续；

第二、中国半导体制造工艺将在相当长时间处于落后状态；

第三、可持续的算力只能基于实际可获得的芯片制造工艺；

第四、人工智能成为主导性算力需求，促使计算系统正在发生结构性变化；

第五、开创计算架构，打造“超节点+集群”算力解决方案持续满足算力需求。

但第五点没有展开讲，本来想讲，但我的团队不同意。今天，我想利用此机会，来把我去年HC没有完成的任务完成，也算是答卷。我今天分享的主题是：“以开创的超节点互联技术，引领AI基础设施新范式”，也是回答去年HC提到的第五点：如何开创计算架构，打造 “超节点+集群”算力解决方案来持续满足算力需求。

在展开今天主题前，回到DeepSeek对产业界、对华为的冲击，DeepSeek开源后，我们的客户对华为的昇腾发展指出了很多问题，也充满了期待，并一直在给我们不断地提建议。为此，经过内部的充分讨论并达成共识，我们于2025年8月5日在北京专门举办了昇腾产业峰会，我代表华为给出了回应，在座的有的参加了，有的可能没有参加。今天，我也利用此机会就主要的决定给大家汇报一下。

主要有四点：

一、华为坚持昇腾硬件变现；

二、CANN 编译器和虚拟指令集接口开放，其它软件全开源，CANN基于Ascend 910B/C的开源开放将于2025年12月31日前完成，未来开源开放与产品上市同步；

三、Mind系列应用使能套件及工具链全面开源，并于2025年12月31日前完成；

四、openPangu基础大模型全面开源。

接下来回到今天的主题。尽管DeepSeek开创的模式可以大幅减少算力需求，但要走向AGI、要走向物理AI，我们认为，算力，过去是，未来也将继续是人工智能的关键，更是中国人工智能的关键。

算力的基础是芯片，昇腾芯片是华为AI算力战略的基础。自2018年发布Ascend 310芯片，2019年发布Ascend 910芯片，到2025年，Ascend 910C芯片随着Atlas 900超节点规模部署，为大家所熟悉。在过去几年，客户和伙伴们对昇腾芯片有很多诉求，对昇腾芯片也有很多期待。面向未来，华为的芯片路标是如何规划的？想必是大家普遍关心的话题，可能也是最关心的内容。

因此，今天，我就直入主题来介绍昇腾芯片及其路标。我很确定地告诉大家，昇腾芯片将持续演进，为中国乃至世界的AI算力构筑坚固根基。

未来3年，至2028年，我们在开发和规划了三个系列，分别是Ascend 950系列，包括两颗芯片：Ascend 950PR和Ascend 950DT，以及Ascend 960、Ascend 970系列，更多具体芯片还在规划中。下面我分别介绍快要推出的和已规划的4颗昇腾芯片。

我们正在开发、且即将推出的芯片叫Ascend 950系列。我首先介绍一下Ascend 950系列的芯片架构，Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。与前一代昇腾芯片相比，Ascend 950 在以下几个方面实现了根本性提升。

第一，新增支持业界标准FP8/MXFP8/MXFP4等低数值精度数据格式，算力分别达到1P和2P，提升训练效率和推理吞吐。并特别支持华为自研的HiF8，在保持FP8的高效的同时，精度非常接近FP16。

第二，大幅度提升了向量算力。这主要通过三个方面实现：其一，提升向量算力占比；其二，采用创新的新同构设计，即支持 SIMD/SIMT 双编程模型，SIMD能够像流水线一样处理“大块”向量，而SIMT便于灵活处理“碎片化”数据；其三，把内存访问颗粒度从512字节减少到128字节，内存访问更精细，从而更好地支持了离散且不连续的内存访问。

第三，互联带宽相比Ascend 910C提升了2.5倍，达到2TB/s。

第四，结合推理不同阶段对于算力、内存、访存带宽及推荐、训练的需求不同，我们自研了两种HBM，分别是：HiBL 1.0和HiZQ 2.0。不同的自研HBM与Ascend 950 Die合封，分别构成芯片Ascend 950PR：面向Prefill和推荐场景，以及Ascend 950DT：面向Decode和训练场景。

下面分别介绍。

首先是我们的第一颗芯片，Ascend 950PR，主要面向推理Prefill阶段和推荐业务场景。首先，我们发现，随着Agent的快速发展，输入上下文越来越长，首Token输出阶段占用计算资源越来越多。其次是在电子商务、内容平台、社交媒体等业务应用中，要求推荐算法具有更高的准确度和更低的时延，对计算能力的需求也越来越大。推理Prefill阶段和推荐算法都是计算密集型，对计算并行的能力要求高，但对内存访问带宽的需求相对低。通过分级内存解决方案，推理Prefill阶段和推荐算法对本地内存容量的需求相对也不高。Ascend 950PR 采用了华为自研的低成本HBM，HiBL 1.0，相比高性能、高价格的HBM3e/4e，能够大大降低推理Prefill阶段和推荐业务的投资。

这颗芯片将在2026年一季度推出，首先支持的产品形态是标卡和超节点服务器。

接下来这一颗是Ascend 950DT，相比Ascend 950PR，它更注重推理Decode阶段和训练场景。由于推理Decode阶段和训练对互联带宽和访存带宽要求高，我们开发了HiZQ 2.0，使内存容量达到144GB，内存访问带宽达到4TB/s。同时把互联带宽提升到了2TB/s。其次，支持了FP8/MXFP8/MXFP4/HiF8数据格式。

Ascend 950DT 将在2026年四季度推出。

第三颗是在规划中的芯片Ascend 960。它在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比Ascend 950翻倍，大幅度提升训练、推理等场景的性能；同时还支持华为自研的HiF4数据格式。它是目前业界最优的4bit精度实现，能进一步提升推理吞吐，并且比业界FP4方案的推理精度更优。

Ascend 960将在2027年四季度推出。

最后一颗是在规划中的Ascend 970，这颗芯片的一些规格还在讨论中。总体方向是，在各项指标上大幅度升级，全面升级训练和推理性能。目前的初步考虑是，相比Ascend 960，Ascend 970的FP4算力、FP8算力、互联带宽要全面翻倍，内存访问带宽至少增加1.5倍。Ascend 970计划在2028年四季度推出。大家届时可以期待它的惊人表现。

这是刚才介绍的昇腾芯片的主要具体规格和路标，总体上，我们将以几乎一年一代算力翻倍的速度，同时围绕更易用，更多数据格式、更高带宽等方向持续演进，持续满足AI算力不断增长的需求。可以看到，相比Ascend 910B/910C，从Ascend 950开始的主要变化包括：

引入SIMD/SIMT新同构，提升编程易用性；
支持更加丰富的数据格式，包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等；
支持更大的互联带宽，其中950系列为2TB/s，970系列提升到4TB/s；
支持更大的算力，FP8算力从950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS；FP4算力从950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS；
内存容量逐渐加倍，而内存访问带宽将翻两番。

有了昇腾芯片为基础，我们就能够打造满足客户需求的算力解决方案。从大型AI算力基础设施建设的技术方向看，超节点已经成为主导性产品形态，并正在成为AI基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机，物理上由多台机器组成，但逻辑上以一台机器学习、思考、推理。随着算力需求的持续增长，超节点的规模也在持续、快速增大。

今年3月份，华为正式推出了Atlas 900超节点，满配支持384卡。因为是超节点，这384颗Ascend 910C芯片，能够像一台计算机一样工作，最大算力可达300 PFLOPS。到目前为止，Atlas 900依然是全球算力最大的超节点。大家经常听到的CloudMatrix384超节点，是华为云基于Atlas 900超节点构建的云服务实例。Atlas 900超节点自上市以来，已经累计部署超过300套，服务20多个客户，涵盖互联网、电信、制造等多个行业。可以说，Atlas 900于2025年，开启了华为AI超节点的征程。

今天，结合我们已经推出或正在研发中的昇腾芯片，我将为大家带来更多超节点和集群产品。现在进入今天最激动人心的时刻，就是新产品发布环节。

今天我要发布的第一款产品，Atlas 950超节点，基于Ascend 950DT打造。

Atlas 950超节点支持8192张基于Ascend 950DT的昇腾卡，是Atlas 900超节点的20多倍，我们习惯称呼的昇腾卡，每张卡对应一颗Ascend 950DT芯片，8192张昇腾卡等同于8192颗Ascend 950DT芯片。

Atlas 950超节点满配包括由128个计算柜、32个互联柜，共计160个机柜组成，占地面积1000平方米左右，柜间采用全光互联。总算力大幅度提升，其中，FP8算力达到8E FLOPS，FP4算力达到16E FLOPS。互联带宽达到16PB/s，这个数字意味着，Atlas 950一个产品的总互联带宽，已经超过今天全球互联网峰值带宽的10倍有余。

Atlas 950超节点的上市时间是：2026年四季度。

我们很自豪的看到，Atlas 950超节点，至少在未来多年都将保持是全球最强算力的超节点，并且在各项主要能力上都远超业界主要产品。其中，相比英伟达同样将在明年下半年上市的NVL144，Atlas 950超节点卡的规模是其56.8倍，总算力是其6.7倍，内存容量是其15倍，达到1152TB；互联带宽是其62倍，达到16.3PB/s。即使是与英伟达计划2027年上市的 NVL576相比，Atlas 950超节点在各方面依然是领先的。

算力、内存容量、内存访问速度、互联带宽等能力的大幅度增强，为大模型训练性能和推理吞吐带来显著提升。相比华为已经推出的Atlas 900超节点，Atlas 950超节点的训练性能提升17倍，达到4.91M TPS。通过支持FP4数据格式，Atlas 950超节点的推理性能提升达26.5倍，达到19.6M TPS。

8192卡超节点并不是我们的终点，我们还在继续努力。我今天发布的第二款超节点产品，Atlas 960超节点。基于Ascend 960，Atlas 960超节点最大可支持15488卡。Atlas 960超节点由176个计算柜，44个互联柜，共220个机柜，占地面积约2200平方米。

Atlas 960超节点的上市时间是：2027年四季度。

伴随卡的规模的再次升级，Atlas 960超节点让我们在AI超节点的优势再度增强。基于Ascend 960，其总算力、内存容量、互联带宽在Atlas 950基础上再翻倍。其中，FP8总算力将达到30E FLOPS，而FP4总算力将达到60 EFLOPS；内存容量达到4460TB，互联带宽达到34PB/s。大模型训练和推理的性能相比Atlas 950超节点，将分别提升3倍和4倍以上，达到15.9M TPS 和80.5M TPS。通过Atlas 950和Atlas 960，我们对于为人工智能的长期快速发展提供可持续且充裕算力，充满信心。

超节点已经重新定义AI基础设施的范式，但不仅仅局限于AI。在通用计算领域，我们同样认为，超节点技术能够带来很大的价值。从需求角度考虑，金融核心业务等目前仍然有部分承载在大型机和小型机之上，相比普通服务器集群，它们对服务器的性能和可靠性有更高的诉求，通用计算超节点在这两点上正好切合需求。从技术角度考虑，超节点同样可以为通算领域注入全新活力。

因此，鲲鹏处理器主要围绕支持超节点，更多核、更高性能等方向持续演进。同时，通过自研的双线程灵犀核，使鲲鹏处理器能方便支持更多线程。

2026年第一季度，我们将推出Kunpeng 950处理器，包括两个版本，分别是：96核/192线程和192核/384线程；支持通用计算超节点；安全方面新增四层隔离，成为鲲鹏首颗实现机密计算的数据中心处理器。

2028年第一季度，鲲鹏处理器将在芯片微架构、先进封装技术等领域持续突破关键技术，将再次推出两个版本，分别是高性能版本，96核/192线程，单核性能提升50%+，主要面向AI host、数据库等场景。以及高密版本，不少于256核/512线程，主要面向虚拟化、容器、大数据、数仓等场景。

接下来是今天我发布的第三款产品：TaiShan 950超节点，基于Kunpeng 950打造，全球首个通用计算超节点，其最大支持16节点，32个处理器，最大内存48TB，同时支持内存、SSD、DPU池化。

这款产品不只是通用计算领域的一次技术升级，除了大幅提升通用计算场景下的业务性能，还能帮助金融系统破解核心难题。当前大型机、小型机替换的核心挑战是数据库分布式改造，而基于TaiShan 950超节点打造的 GaussDB多写架构，无需改造，但性能提升2.9 倍，最终可平滑替代大型机、小型机上的传统数据库。TaiShan 950加上分布式GaussDB将成为各类大型机、小型机的终结者，彻底取代各种应用场景的大型机和小型机以及Oracle的Exadata数据库服务器。

除了核心数据库场景，TaiShan 950超节点在更广泛的场景里，表现也很亮眼：比如虚拟化环境的内存利用率提升20%，在Spark大数据场景，实时数据处理时间缩短30%。

TaiShan 950超节点上市时间是：2026年一季度，敬请期待。

超节点的价值，不仅仅体现在智算和通算传统业务领域。互联网产业广泛应用的推荐系统，正在从传统推荐算法向生成式推荐系统演进。我们可以基于TaiShan 950和Atlas 950打造成混合超节点，为下一代生成式推荐系统打开全新架构方向。

一方面，通过超大带宽、超低时延互联以及超大内存，混合超节点构成超大共享内存池，支持PB级推荐系统嵌入表，从而支撑超高维度用户特征；另一方面，混合超节点的超大AI算力，能够支持超低时延推理和特征检索。因此，混合超节点是面向下一代生成式推荐系统的解决方案的全新选择。

大规模超节点把智算和通算的能力都推向新的高度，同时也对互联技术提出了重大挑战。华为作为联接领域的领导者，当然不惧挑战。在定义和设计Atlas 950、Atlas 960两个超节点的技术规格时，我们遭遇到了互联技术的巨大挑战，主要在两个方面：

第一是如何做到长距离而且高可靠。大规模超节点机柜多，柜间联接距离长，当前电互联和光互联技术都不能满足需求。其中，当前的电互联技术在高速时联接距离短，最多只能支持两柜互联，而当前的光互联技术虽然可以把长距离的多机柜联接在一起，但无法满足可靠性需求。

第二是如何做到大带宽而且低时延。当前跨柜卡间互联带宽低，和超节点的需求差距达5倍；跨柜的卡间时延大，当前互联技术最好只能做到3微秒左右，和Atlas 950/960设计需求仍然有24%的差距，当时延已经低至2~3个微秒时，已经逼近物理极限，哪怕0.1微秒的提升，挑战都很大。

华为基于三十多年构筑的技术能力，通过系统性创新，彻底解决了当前技术存在的问题，超标达成Atlas 950/960超节点的设计需求，使万卡超节点成为可能。

首先，为了解决长距离且高可靠问题，我们在互联协议的物理层、数据链路层、网络层、传输层等每一层都引入了高可靠机制；同时在光路引入了百纳秒级故障检测和保护切换，当出现光模块闪断或故障时，让应用无感；并且，我们重新定义和设计了光器件、光模块和互联芯片。这些创新和设计让光互联的可靠性提升100倍，且互联距离超过200米，实现了电的可靠和光的距离。

其次，为了解决大带宽且低时延问题，我们突破了多端口聚合与高密封装技术，以及平等架构和统一协议，实现了TB级的超大带宽，2.1微秒的超低时延。正是因为一系列系统性、原创性的技术创新，我们才攻克了超节点互联技术，满足了高可靠、全光互联、高带宽、低时延的互联要求，让大规模超节点成为了可能。

为了达成Atlas 950/960超节点对互联的技术要求，为了实现万卡超节点还能是一台计算机，华为开创了超节点架构并开创了新型的互联协议，能够支撑万卡级超节点架构。基于这个互联协议的超节点架构的核心价值主张是：万卡超节点，一台计算机，也就是说，通过该互联协议，把数万规模的计算卡，联接成一个超节点，能够像一台计算机一样工作、学习、思考、推理。

在技术上，我们总结认为，万卡级超节点架构应该具备6大特征，分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。我们为这个面向超节点的新型互联协议取名“灵衢”，英文名称：UB，UnifiedBus

今天，我们正式发布灵衢、UnifiedBus。一个面向超节点的互联协议。

同时，我宣布，华为将开放灵衢2.0技术规范。为什么从灵衢2.0开始开放？事实上，灵衢的研究是从2019年开始的，因为众所周知的原因，先进工艺不可获得，我们需要从多芯片上突破，希望把更多的计算资源联接在一起。我们取了一个名字叫UnifiedBus，简称UB，中文名字“灵衢”，意味着类似九省通衢，实现大规模算力的联通。基于灵衢 1.0 的Atlas 900超节点自2025年3月开始交付，至今已商用部署300多套，灵衢1.0技术得到充分验证。在灵衢1.0的基础上，我们继续丰富功能，优化性能，提升规模，进一步完善了协议，形成了灵衢2.0，前面发布的Atlas 950超节点就是基于灵衢2.0。

我们认为灵衢2.0具备了开放的条件，为了更广泛地促进互联技术发展和产业进步，今天华为决定开放灵衢2.0技术规范，欢迎产业界伙伴基于灵衢研发相关产品和部件，共建灵衢开放生态。

我在去年HC会上强调过，基于中国可获得的芯片制造工艺，我们努力打造“超节点+集群”算力解决方案，来持续满足算力需求。今天已经介绍了三个超节点产品。灵衢既为超节点而生，是面向超节点的互联协议，也是构建算力集群产品最优的互联技术。

接下来为大家带来两个集群产品：首先是，Atlas 950 SuperCluster 50万卡集群！

Atlas 950 SuperCluster集群由64个Atlas 950超节点互联组成，把1万多机柜中的52万多片昇腾950DT组成为一个整体，FP8总算力可达524 EFLOPS。上市时间与Atlas 950超节点同步，即2026年第四季度。

在集群组网上，我们同时支持UBoE与RoCE两种协议，UBoE是把UB协议承载在以太网上，让客户能够利用现有以太交换机。相比传统RoCE，UBoE组网的静态时延更低、可靠性更高，交换机和光模块数量都更节省，所以，我们推荐UBoE。

这就是我们的Atlas 950 SuperCluster集群。相比当前世界上最大的集群 xAI Colossus，规模是其2.5倍，算力是其1.3倍，是当之无愧的全世界最强算力集群！无论是当下主流的千亿稠密、稀疏大模型训练任务，还是未来的万亿、十万亿大模型训练，超节点集群都可以成为性能强悍的算力底座，高效稳定地支持人工智能持续创新。

相应的，在2027年第四季度，我们还将基于Atlas 960超节点，同步推出Atlas 960 SuperCluster，集群规模进一步提升到百万卡级，FP8总算力达到2 ZFLOPS！FP4总算力达到4 ZFLOPS。并且，它同样也支持UBoE与RoCE两种协议，在UBoE协议加持下，性能与可靠性同样更优，并且，静态时延和网络无故障时间优势进一步扩大，因此继续推荐UBoE组网。通过Atlas 960 SuperCluster，我们将持续加速客户应用创新，探索智能水平新高。

很高兴今天给大家带来一系列新产品，我们希望和产业界一起，以开创的灵衢超节点互联技术，引领AI基础设施新范式；以基于灵衢的超节点和集群持续满足算力快速增长的需求，推动人工智能持续发展，创造更大的价值，谢谢！

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好