当下,人工智能技术正深刻改变着世界。
随着模型规模、数据量的持续突破与学习范式的迭代,大模型开始具备对海量数据进行深度捕捉与跨领域关联的新能力,这为其在更复杂、更开放的现实场景中实现自主决策与创新应用奠定了基础。AIDC作为人工智能时代的关键基础设施,在推动“AI业务化、业务AI化”的过程中扮演着至关重要的角色。
运载力作为承载数据传输的通路,在AIDC建设中的作用不言而喻。为了更好的满足AIDC在数据传输与管理上的需求,近日,浪潮信息旗下元脉网络正式发布“AIDC解决方案”,该方案可以提供高带宽与低延迟协同、高可靠性与容错能力兼容、灵活敏捷与安全可靠并蓄的联接能力,全面推动AI应用新局面。
核心挑战:多资源共存、多网络融合、智能化运维
随着技术的持续精进和应用场景的不断扩展,AIDC在推动科技进步、促进产业创新、提升社会管理水平等方面都具备不可替代的战略意义。在场景融合应用上,AIDC承载了更多变、更复杂的交互需求及运载任务,与传统数据中心相比,AIDC网络需要满足超大规模并行计算在无损传输、动态调度等方面的需求。AIDC对运载网络提出如下挑战:
多资源共存:在 AI 驱动的新一代数据中心中,多类型业务与多资源池的协同共存成为显著特征。以基于 RAG(检索增强生成)技术的大模型应用为例,其运行过程需动态、实时调用多元化资源。要求运载网络可以提供更大的带宽、更低的时延,满足多资源共存前提下的数据传输要求。
多网络融合:传统数据中心多采用标准架构,划分为业务、存储、管理几张网络,而AIDC还需设定独立的AI计算网、存储网等。基于不同业务流量间的特征及性能差异,AI时代的数据中心要兼顾多张网络的融合需求,节约投资、简化管理。
智能化运维:面对更加庞大的系统规模,网络自身也需要具备“会思考”、“懂业务”的能力,可以智能化运维、自动化管理,以适应复杂多变的应用场景需求,提升管理效率,降低运维成本。
综上所述,数据传输需要进行全方位的能力升级,在多资源共存、多网络融合、智能化运维等方面持续创新,让AIDC的网络性能做加法、管理做减法。
破局之道:元脉网络“AIDC”解决方案
浪潮信息是最早布局大模型的企业之一,具备从算力、算法、数据、到互联的全栈解决方案能力。在数据传输领域,浪潮信息旗下元脉网络立足AIDC网络建设核心诉求,推出 “AIDC解决方案”。帮助客户提供高带宽与低延迟协同、高可靠性与容错能力兼容、灵活敏捷与安全可靠并蓄的联接能力。缓解AIDC建设时的海量数据传输压力,满足用户在智能自动部署、极简开局、精准智能运维方面的需求,加速释放数据价值。
方案核心组件包括交换机和ICE智能运管平台,具有如下特点:
■ 全栈产品 全面覆盖:元脉网络提供适配AIGC智算中心、高性能计算、云数据中心等融合场景的全栈交换机产品,涵盖 10G/25G/100G/200G/400G 等多速率接口,全系支持 RoCE 无损网络协议。
■ 自动部署 智能运维:元脉网络AIDC解决方案,能够实现多资源池网络的统一配置和管理,覆盖部署、上线、监控、运维等全生命周期,为用户呈现统一界面和视图。
■ 开放接口 敏捷灵活:元脉网络依托开放兼容的接口体系,可以实现与多业务平台的敏捷对接,并通过动态化管理机制,实时精准适配业务需求。
性能做加法、管理做减法:元脉网络让AIDC智稳兼容
针对 AIDC 网络联接的核心诉求,元脉网络以性能升级与管理优化为切入点,通过强化高带宽、低时延的传输能力,以及智能化的资源调度体系,全面提升 AIDC 网络的联接效能,为大模型训练推理、海量数据交互等 AI 业务场景提供稳定高效的底层支撑,助力 AI 业务实现规模化发展。
■ 元脉RoCE 给性能做加法:
在 AI 训练等场景中,对网络性能的极致追求贯穿始终,这使得带宽、延迟和可靠性成为核心考量要素。元脉 RoCE 凭借自适应路由、报文保序等技术,让交换机和网卡实现了更为紧密的协同配合。为 AI 大模型打造零丢包、无阻塞的全链路交换网络,不仅将有效带宽从传统的 60% 提升至 95%,其性能更是达到了传统 RoCE 的1.6倍。
当集群里部分链路发生故障时,元脉RoCE依托全局自适应路由保护带宽性能,将影响降至最低,相对于动态负载均衡(DLB)方案,大模型训练效率提升28%。而AI集群在多租户场景下会多个模型同时运行,元脉RoCE的租户流量隔离能力可以充分的保证各个模型的高效运行,互不影响。
■ 智能运管平台 让管理做减法:
元脉网络AIDC解决方案聚焦部署、上线、运维全生命周期管理需求,通过从“ Day0 到 Day2”各阶段的精准施策,实现全流程轻量化运维。同时,可图形化展示服务器、GPU、网卡和内部拓扑信息,支撑全路径网络瓶颈排查,提供端到端的运维能力。
在智能运维进阶上,元脉网络AIDC解决方案支持多网络的可视化配置与管理,及训前一键NCCL压力测试,将部署时间从数周缩短到数天,极大简化用户的运维部署成本;基于AI算法精准监控光模块的各项指标,达到故障“主动预警、提前干预”的目的。
AI赋能未来 互联构筑基石
元脉® 浪潮信息旗下网络业务品牌,作为AI时代网络创新引领者,可以为用户提供面向AI时代的智算中心、数据中心、边缘网络等全栈网络方案。并坚持智能、开放、可靠的发展理念,不断深化自身在技术创新、场景创新、合作创新方面的能力,为AI时代算力、数据价值的释放,打造坚实互联基石。