资讯
`
2025/11/27 11:31
从“拼规模”到“拼效率”:华为Flex:ai跃升算力利用效率,引领AI平民化新纪元
0
0

C114讯 11月27日专稿(蒋均牧)从机器人聊天到使能千行万业的专业模型+Agent,AI技术的每一门分支、每一次飞跃都离不开算力的强有力支撑。

然而,随着AI应用的日益广泛与深入,一个更为现实的问题正在浮出水面——昂贵的GPU/NPU资源利用率普遍低于40%,大量算力在“空转”中被浪费;一些中小企业与科研机构却因算力门槛过高,难以充分受益于AI。长此以往,无疑将极大地制约AI产业发展。

在这一背景下,容器技术这个发端于云计算领域的概念,以其轻量级、可移植、易部署等特性,正从“应用封装工具”演进为“算力调度中枢”。就在最近,华为联合上海交通大学、西安交通大学与厦门大学发布并开源AI容器技术Flex:ai,旨在通过技术创新与生态共建,破解算力资源利用难题,进而推动AI技术的普惠。

“大家以前没有听到一个词,‘让AI从此平民化’?AI平民化不是在台式机里装块4090的游戏卡就作数,而是花更少的钱、让更多人获益,这就是我们今天所做的事情以及努力的方向。”华为副总裁、数据存储产品线总裁周跃峰博士告诉C114。发布会后,他携手数位华为技术专家出席媒体圆桌,对该公司在AI容器领域的前瞻视野与深远布局作出了详尽解读。

AI产业高歌猛进下的效率困境

2025年,全球AI产业继续高歌猛进,大模型参数规模从千亿迈向万亿,AI在各行各业的应用也开始步入深水区,算力需求呈指数级增长。但与之形成鲜明对比的是,算力资源的利用效率始终在低位徘徊。据统计,超过60%的头部互联网企业GPU利用率低于40%,在私有云化部署场景中甚至不足30%。

“小任务单卡算力用不完,大任务单机算力不够用,多任务并发时调度无解。”周跃峰的发言一针见血。他以医疗场景举例,一家顶级三甲医院仅能负担16张AI加速卡,但当多名医生同时使用AI辅助诊断时,推理任务排队等待时间长达数十分钟,“这不是技术不行,是资源调度机制出了问题”。

“在学校里面,GPU是非常关键的,大家都需要拿来做科研,发现资源利用率会比较低,一部分原因是卡被人占用后往往需要排队,形成了非常大的资源浪费。”上海交通大学戚正伟教授分享说,“传统虚拟化方案要么粒度粗放,要么开销过大,无法在异构算力环境中实现细粒度资源隔离。”

面对算力资源利用的挑战,容器技术以其独特的优势成为优化资源配置的重要手段。然而,传统容器技术在面对AI应用时,仍存在诸多不足。例如对GPU、NPU等异构算力资源的支持不够完善,难以实现算力的精细化管理;容器间的资源隔离与性能保障机制不够健全,容易导致任务间的相互干扰;此外,容器在跨节点、跨集群的资源调度与协同方面也存在较大局限,难以满足AI应用对算力资源的高效利用需求。

更深层的问题在于生态封闭。英伟达通过MIG技术实现GPU切分,但其固定粒度与硬件绑定的模式限制了灵活性;被其收购的Run:ai虽在调度层有所突破,却未彻底开源,形成“技术黑盒”且硬件兼容性严重受限。

显然,AI真正由“贵族游戏”走向“平民工具”,需要找到那块关键的拼图。

Flex:ai破局:从“资源切片”到“全局调度”

针对这一系列挑战,华为此次发布并开源的Flex:ai XPU池化与调度软件提供了破局之道。从技术架构看,Flex:ai基于Kubernetes构建,通过对GPU、NPU等智能算力资源的精细化管理与智能调度,实现AI工作负载与算力资源的精准匹配,从而做到算力资源的“按需取用”与“细水长流”。其核心技术突破体现在三个方面:

突破一、XPU池化,让一卡变多卡:针对“小任务占大卡”的浪费现象,华为与上海交通大学联合研发了XPU池化框架。该技术可将单张GPU或NPU算力卡切分为多份虚拟算力单元,服务多个AI工作负载,切分粒度精准至10%。

“我们能不能把一张卡虚拟化成多张卡,让我们以更小的算力单元进行调度,让每一张卡的算力能力能够充分释放出来。”周跃峰在演讲中如此阐述设计初衷。在实际测试中,该技术使得小模型推理场景下的整体算力平均利用率提升30%,显著提高了单卡服务能力。

相比芯片原生的MIG技术只能切固定的切片,Flex:ai的软切分更加灵活,“用多少,切多少”。华为技术专家解释说:“我们的切片技术基于软件,可以根据需求来切分,比如说切三份,有的占40%、有的占30%、有的占20%,弹性也更好一点。”

突破二、跨节点聚合,打破“算力孤岛”:针对大量通用服务器无法服务于AI工作负载的问题,华为与厦门大学联合研发了跨节点拉远虚拟化技术。该技术将集群内各节点的空闲XPU算力聚合形成“共享算力池”,一方面为高算力需求的AI工作负载提供充足资源支撑;另一方面,可让不具备智能计算能力的通用服务器通过高速网络,可将AI工作负载转发到远端“资源池”中的GPU/NPU算力卡中执行。

“我们的关键思想是把XPU上下文从CPU的进程里面分离出来,并且进行抽象的组织和灵活映射。”厦门大学张一鸣教授阐述道,通过“多对多”与“多对一”的灵活映射,该技术有效解决了外部碎片(跨节点XPU空闲)和内部碎片(单卡算力未被充分利用)问题。

实测数据显示,该方案相比现有最佳技术Sota,在作业中提升了67%的高优作业吞吐量,并有效利用17%的内部碎片;在大规模仿真实验中,打破了XPU的服务范围限制,减少了74%的外部碎片。

突破三、多级智能调度,为算力基建装上“智慧大脑”:面对异构算力统一调度的挑战,华为与西安交通大学共同打造了Hi Scheduler智能调度器。该调度器可自动感知集群负载与资源状态,结合AI工作负载的优先级、算力需求等多维参数,对本地及远端的虚拟化GPU、NPU资源进行全局最优调度,实现AI工作负载分时复用资源。

“做了分层调度后怎么把它用好,一层一层推一直到模型的服务系统里去,从上到下怎样做有效调度?我们和华为一起进行了各种尝试。”西安交通大学张兴军教授从体系结构角度解读说,Hi Scheduler的创新之处在于,它通过控制命令缓冲区实现时间隔离,直接面向底层命令缓冲区进行调度与控制,有效屏蔽了API层的差异性,在可移植性与长期兼容性方面展现出显著优势。

生态共建:推动AI平民化加快实现

不止于技术突破,Flex:ai的价值更在于其开创的开源模式与生态定位。在Run:ai被英伟达收购并逐步封闭的背景下,华为选择了一条截然不同的道路——开源开放,共建生态。

“如果AI只能在拥有万张卡的企业中运行,这个泡沫终将破灭。”周跃峰在分享中多次强调了“AI平民化”愿景,希望让中小企业甚至家庭用户也能以更低的成本享受到AI技术带来的便利与高效,而要实现这个愿景就必须调动起“产学研用”各方的力量。

“AI行业化落地是一件很难的事情,光靠华为公司的软件工程师的力量是远远难以完成的。”他坦言,“我们更多的是希望能够把这些软件开源开放之后,有很多伙伴、有很多打造解决方案的公司或者集成商,他们能够更加灵活地使用它。”

华为先前已经向外界开源开放了DCS AI全流程工具链与UCM推理记忆数据管理器,Flex:ai亦是沿着这一思路发展。有所不同的是,Flex:ai从一开始就是由华为与三家高校“共创”。而从更宏观的角度,Flex:ai的开源开放也为国内的AI产业提供了另一种选择,降低了被卡脖子的风险。

华为技术专家亦谈到,Flex:ai已向开源社区开源开放了智能调度和算力虚拟化模块,将提供标准化的通用API接口,希望后续有更多的开发者一起参与进来,共同推进算法调度处理、异构算力兼容等工作。这不仅有助于提升我国在全球AI产业中的竞争力,也将为全球AI产业的高质量发展注入强劲动能。

Flex:ai的出现,标志着AI基础设施从“拼规模”进入到“拼效率”的新阶段。通过三大核心技术的突破,它破解了算力资源利用的难题、降低了AI应用的门槛,让AI真正从“炫技”走向“赋能”、从“情绪价值”走向“生产力价值”。而随着技术的持续演进与生态的不断完善,Flex:ai这样的容器技术,或许比任何一个万亿参数的模型都更加值得期待。

版权说明:C114刊载的内容,凡注明来源为“C114通信网”或“C114原创”皆属C114版权所有,未经允许禁止转载、摘编,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。编译类文章仅出于传递更多信息之目的,不代表证实其描述或赞同其观点;翻译质量问题请指正

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销