资讯
`
2025/12/17 11:40

中国电信研究院发布大模型分布式推理优化试验

0
0

中国电信研究院依托中国电信云网融合大科创装置智算资源,联合北京大学在大模型分布式推理优化领域实现了重大技术突破,攻克大模型推理效率与硬件成本的核心矛盾,成功打造出一套高效率、低成本的企业级LLM推理优化方案,覆盖了大模型推理的主要应用场景。

在集群场景的优化上,为解决多任务混合场景中短请求受长请求干扰导致时延显著增长的问题,电信研究院联合北京大学研发面向多任务场景的编排调度算法,并将其与云原生推理集群架构整合,实现在1k-32k多长度请求混合的典型应用场景中,所有请求的平均端到端时延降低40%,短请求首token时延和解码时延下降75%。在边缘一体机场景的优化上,针对大语言模型在边缘场景部署时资源受限问题,电信研究院改进了现有的低比特量化算法,筛选了一部分重要权重作为保留,极大限度压缩模型权重的同时保证了模型精度。该算法应用于 DeepSeek V3/R1,将最小部署单元从 6 台 A800 缩减至单台,硬件成本节约超 80%,推理效率提升 50%,助力存量A卡高效利用。在问答场景,该方案将投机采样与算子融合相结合,实现了DeepSeek R1 671B全量版2.8倍推理吞吐效率提升,同时在多轮对话、智能体+RAG的长文本场景中应用KV Cache多级缓存,通过区分冷热数据进一步提升推理效率。

该试验成果自年初在中国电信云网融合大科创装置上线以来,为中国电信集团公司、研究院、省专公司等30余个科研项目提供API服务,累计处理Token超260亿个,同时在集团、省公司等多个项目试点落地,充分证明了技术方案的可行性以及其在推理效率、吞吐量等方面的性能增益,为大规模部署提供了解决方案支持及验证数据参考。未来,电信研究院将继续深耕大模型分布式推理优化技术,携手业界伙伴,共同推动推理优化关键技术创新、标准制定和产业发展。

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销