在数字经济加速渗透的当下,算力已成为驱动产业变革的核心生产力,而智算作为算力领域的关键赛道,正迎来爆发式增长。联通数科作为中国联通布局智算产业的核心力量,其自主研发的“联通星罗”先进算力调度平台,凭借对全域算力的智能调度能力,成为联通云“智能融合”战略落地的重要载体。
近日,中国联通云计算首席专家钟忻深度解读了星罗先进算力调度平台2.0的技术突破与产业价值,揭开联通云在智算领域的核心竞争力。
从“通算”到“智算”,“四位一体”体系破解行业痛点
“联通星罗”先进算力调度平台2.0通过“国芯、国模、国算、国盾”四位一体产品体系,完成了“资源聚合-智能分配-高效执行-安全护航”技术闭环,从硬件到软件、从调度到安全都全栈自主可控。
随着AI大模型、自动驾驶、智慧医疗等场景的深入发展,行业对算力的需求已从传统通用计算转向高密集、异构化的智能计算。星罗算力调度平台的迭代,正是源于对行业痛点的深刻洞察。一方面,国产化算力适配分散、模型生态兼容性不足,导致企业难以高效利用多元硬件资源;另一方面,传统调度模式下资源错配、闲置浪费问题突出,无法满足大模型训练对“万卡级”算力的规模化需求。
“星罗2.0并非简单的版本升级,而是从‘通算思维’到‘智算思维’的全面转型。”钟忻强调,平台以“国芯、国模、国算、国盾”四大体系为核心架构,构建起全栈国产化智算能力底座。
在“国芯”层面,星罗2.0已完成对昇腾、昆仑芯、平头哥、壁仞科技等企业的十几款国产化芯片适配,通过统一的云原生K8s管理体系,实现异构算力的“一盘棋”纳管;“国模”环节则聚焦大模型生态建设,第一时间将DeepSeek、千问、Kimi等主流国产化大模型接入平台,解决开源模型在国产芯片上的算子适配、性能优化难题,让用户无需二次开发即可快速调用模型能力。
当“国芯”与“国模”的能力叠加,便形成了“国算”平台的核心价值。钟忻解释道,星罗2.0借助云原生的弹性伸缩、任务优先级调度技术,将GPU显存、计算核心等资源按“细粒度”拆分,例如针对小体量推理任务,可灵活分配部分显存资源,而非占用整卡算力,资源利用率较传统模式大大提升。同时,平台覆盖“数据处理-模型训练-推理部署”全流程,支持从千亿参数大模型训练到轻量化推理的一体化需求,适配AI下半场从“训练”向“推理”转型的行业趋势。
在安全层面,“国盾”体系为智算服务筑牢防线。依托中国联通作为“安全产业链链长”的优势,星罗2.0在大模型训练、数据传输环节加入多维度安全防护,例如支持数据本地化存储、训练中间数据加密隔离,满足政务、央国企等行业对数据安全的严苛要求。钟忻举例,某医疗企业通过星罗平台进行病理分析模型训练时,数据全程存储在企业私有机房,仅通过联通专线将算力需求传输至平台,实现“数据不动算力动”,既保障了患者隐私,又提升了训练效率。
打破算力“孤岛”,实现全域智能调度
“‘全域’与‘智能’是星罗2.0的两大关键词,也是破解传统调度痛点的核心武器。”钟忻表示,传统算力调度往往局限于单一数据中心、单一硬件类型,导致“有算力的用不上,要用的没算力”。而星罗2.0通过“全域资源整合+智能算法调度”,将分散在不同地域、不同类型的算力资源串联成“虚拟超级集群”,实现算力的高效流转与最优配置。
在“全域”能力的实现上,星罗2.0依托中国联通覆盖全国的网络优势,不断做深训练场景下“算力聚合”以及“就近推理”能力。通过低延时专线将不同省份的云池算力打通,创造性地提出“数据并行+跨域并行”的调度方案。钟忻以千亿级大模型训练为例,若某企业需要3千卡算力,但单个云池仅能提供1000卡空闲资源,为此结合跨域混训技术,将训练任务分别分配至北京、上海、广州等10个云池的1000卡集群,通过分布式参数服务器方案,实现在不损失训练性能的前提下,完成跨地域的规模化算力调度。同时训练后三地天然保存完整模型,避免训练后全量模型跨域同步,轻松实现就近推理。“目前我们已与上海浦江实验室完成技术验证,这一突破让‘算力随需而取’成为现实。未来可以很容易的扩展到万卡及更大规模的聚合训练。”
而“智能”调度则体现在对资源的动态优化与故障自愈能力上。钟忻介绍,星罗2.0针对智算硬件故障率较高的问题,创新采用“热备冗余+分钟级断点续训”机制——例如用户租用1000台服务器时,平台会额外部署50%~10%左右热备服务器,一旦某台设备出现故障,热备服务器可在10秒内无缝接管任务;同时,平台通过AI原生存储的Checkpoint异步存储、近客户端读加速等能力,快速实时保存训练进度,即使任务中断,也能从最近断点快速重启,避免算力浪费。
此外,星罗2.0还引入“闲时/忙时”智能调度策略,将夜间空闲的推理算力开放给科研机构、中小企业,以低价或免费模式降低使用门槛。目前已计划在部分高校的AI实验课程中试点。
在存储与算力的协同上,星罗2.0突破“存储孤立”瓶颈,通过数据预加载、本地化缓存技术,减少算力等待时间。钟忻举例,某政务部门在进行人口大数据模型训练时,平台提前将分散的非结构化数据加载至AI原生存储,训练过程中数据读取时延从毫秒级降至微秒级。同时,针对敏感数据场景,平台支持“算力在联通、数据在用户”的混合云模式,通过专线实现数据“即用即回”,既保障数据安全,又不影响算力调度效率。
赋能千行百业,国产化智算走向“好用”
当被问及星罗2.0的核心竞争力,钟忻明确表示:“不是单一的调度能力,而是‘算力-存储-网络-模型-工具链’的全栈智能融合。这种融合不是简单的组件叠加,而是通过技术创新,让各环节形成‘1+1>2’的协同效应。”
在国产化适配领域,这种融合体现得尤为明显——星罗2.0实现昇腾芯片、自研CUOS、国产大模型的深度协同,例如在郑州人工智能计算中心项目中,平台通过底层硬件优化、中间件适配,同时兼容CUDA生态应用,让企业无需重构代码即可迁移现有模型。
目前,星罗2.0已在政务、医疗、教育、央国企等领域形成规模化落地。在政务场景,某地级市通过星罗平台搭建“政务算力中台”,将公安、民政、社保等部门的分散算力整合,支持智能政务问答、电子证照审核等应用,政务办理效率得以提升;教育行业,郑州大学借助星罗平台纳管校内A800、4090、3090等异构GPU资源,构建统一的AI智慧中台,通过集成异构算力、模型开发训练、AI资产管理和统一运营运维功能,促进科研创新和学科发展,培养AI技术人才,推动人工智能技术在教育和科研领域的应用。
对于智算产业的未来发展,钟忻认为,“智能融合”将成为下一代智算平台的核心竞争点。联通云计划以星罗2.0为基础,推动两项关键工作:一是联合芯片厂商、模型公司、行业客户制定智算调度标准,解决异构算力适配、模型性能评测等行业共性问题;二是通过“算力券补贴”“普惠算力服务”等模式,降低中小企业、科研机构的智算使用门槛,培育良性产业生态。
星罗2.0的核心价值,是让国产化智算从“可用”走向“好用”。作为联通云智算战略的核心载体,星罗平台不仅是技术产品,更是推动产业数智化转型的“基础设施”——它让政务部门的算力调度更高效、医疗企业的模型开发更便捷、高校的科研创新更普惠,最终以全栈智能融合能力,为数字经济发展注入“智算动力”。