在ChatGPT掀起的人工智能(AI)热潮中,核心网正朝着智能化方向大步迈进,这一趋势已不可阻挡。作为核心网的算力支撑,网络云的智能化升级扮演着至关重要的角色。AI技术的飞速发展,不仅让核心网变得更加高效智能,也对网络云的算力、存储和网络架构提出了新的挑战与要求。
算力基石的智能化变革
AI训练和推理任务对算力要求极高,需要高性能、大规模并行、低时延互联的支持。这促使网络云从传统的CPU计算模式向DPU、GPU、NPU等异构计算模式转变。异构计算不仅支持算力资源的灵活调度、高性能并行存储访问以及高速无损网络等技术,还确保了资源供应的稳定高效。未来,网络云算力基石的重要发展方向将是隐藏底层GPU异构资源的细节,实现上层AI框架应用与底层GPU算力类型的无缝对接。
在部署方式上,AI+网络云实现了通用计算和智能计算资源的混合部署。这种部署方式既满足了核心网网元应用对通用和智能计算资源的双重需求,又通过中心预训练、区域精调、边缘推理的分布式部署和协同模式,构建了与传统通用计算网络云相同的中心+区域+边缘分布式架构。这种架构的智能化平滑升级,完美匹配了核心网智能化的需求。
资源池化技术提升基础设施效率
智算资源池化是打造高效、灵活、可扩展智算中心的关键所在,主要包括算力池化和内存池化两大技术。
算力池化通过软件定义硬件加速,将多家厂商的物理GPU资源整合成一个统一的虚拟GPU资源池。这一技术不仅实现了GPU资源的高效聚合、调度和释放,还通过GPU虚拟化、多卡聚合、远程调用、动态释放等多种功能,确保了AI模型从开发到部署的全流程算力供给。算力池化技术显著提高了GPU资源的利用率,降低了智算中心算力服务的成本,提升了整体效率。
内存池化技术则通过构建统一的内存池,实现了对多个物理显存、内存设备及资源的统一调度、监控和管理。这一技术不仅提升了系统的响应速度和数据处理能力,还通过CXL等高速互联协议,实现了CPU与加速器之间内存的一致性访问和共享,进一步增强了系统性能。
智算存储满足高效训推任务需求
在大模型开发的各个环节中,存储系统面临着多元存储、海量存储、高并发性能等多重挑战。智算存储通过构建统一的存储架构,满足了AI流水线不同阶段的需求,提供了多元数据存储能力和多种协议互通能力。同时,借助硬件加速和软件加速技术,智算存储大幅降低了数据访问时延,提升了AI模型训练和推理的效率。
分布式智算存储系统不仅支持分布式AI架构的部署和运行,还提供了跨节点的数据复制和备份功能,确保了数据的安全可靠。这一技术为AI创新和应用落地提供了坚实的基础。
开放高通道无损网络降低并行计算通信成本
随着AI大模型参数规模的快速增长,并行计算技术成为加速模型训练的重要手段。然而,同步开销和通信延迟问题也随之凸显。为了解决这一问题,业界开始探索超大规模智算集群中的高速互联技术。
在Scale-up网络方面,通过基于交换拓扑的GPU高速开放互联技术,GPU之间的通信从传统的点对点互联模式转向交换互联模式。该技术显著提升了单机的扩展性和通信带宽,突破单机8卡的限制,从而大幅提升单节点算力,解决TP受限问题。
在服务器间互联方面,超节点服务器Scale-Out互联网络可解决模型训练通信瓶颈,提升整体效率。RoCE作为主流技术,是基于标准以太协议得开放解决方案,但各厂家有各自的增强方案,存在与网络设备难解耦的问题。智算资源管理平台与RoCE网络管控协同,自动化部署参数面网络,基于开放的RoCE协议进行增强,提供通用、开放、高性价比的高性能无损方案,是解决上述困难的有效解决思路。
算力原生构建异构算力解耦生态
随着智算技术的迅猛发展和新兴应用的不断涌现,异构开放环境成为未来发展的必然趋势。算力原生架构通过构建统一标准的算力抽象模型和编程接口,实现了底层GPU异构资源细节的隐藏和上层AI框架应用与底层GPU类型的完全解耦。
算力原生架构包括算力池化层和算力抽象层。算力池化层将各类硬件资源整合为一个统一的资源池,并通过构建底层异构硬件的统一抽象模型,实现了通过统一的度量值申请算力。算力抽象层则通过原生堆栈和接口,实现了对底层算力资源的感知和控制,以及原生程序的加载、解析和执行。
分布式混池部署满足核心网应用需求
由于核心网网元对通用计算和智能计算资源都有需求,AI+网络云实现了通用计算和智能计算资源的混合部署和分布式部署。这种部署方式不仅满足了核心网网元应用的综合资源需求,还通过三级部署模式(枢纽大模型训练中心、区域训推融合资源池、边缘训推一体机),灵活应对了不同算力特征和部署位置的要求。
AI+网络云的部署模式不仅提升了大规模集群的算力和能效,还提高了训练可靠性,满足了基础大模型预训练、行业大模型精调以及客户场景大模型微调等多种需求。同时,通过开放解耦能力和应用生态的构建,AI+网络云为智算技术的多元化发展和应用创新提供了强大支持。