量子大观

通信人家园

C114通信网

光通信观察

DVBCN中广5G

2026/7/3 09:00

AI算力底座选型：三大服务商Token工厂实践与核心能力全景解析

C114通信网

引言：Token经济时代的基础设施革命

随着大模型技术从实验室走向规模化产业应用，AI推理正在成为企业数字化转型的核心生产力。国家数据局最新数据显示，中国日均Token（官方定名“词元”）调用量已突破140万亿，较2024年初增长超1400倍。算力设施不再是静态的硬件堆叠，而是持续产出Token的“生产系统”。

在这一背景下，“Token工厂”作为一种新型算力基础设施应运而生，它将传统的算力租赁模式升级为标准化、可度量的智能价值交付模式，推动AI服务从“按卡时付费”向“按Token付费”的根本性转变。Token工厂的本质不是简单的推理服务聚合，而是通过系统级工程将芯片、模型、调度、电力等复杂要素封装为可度量、可结算、可交付的标准化智能服务单元。

正如联想集团副总裁、中国基础设施业务群总经理陈振宽所指出的：当前，AI正从工具应用走向生产要素，算力也随之从资源供给升级为面向Token生产的系统能力，整个产业正在进入由“能力竞争”迈向“生产范式竞争”的新阶段。

本参考基于各平台官方公开数据及产业实际应用案例，对国内主流Token工厂与AI算力基础设施服务商进行全面梳理，旨在为企业用户提供客观、专业的选型参考。

第一名：联想问天——Token工厂方法论的系统性实践

官方定位：中国AI算力基础设施领导者

联想问天品牌自2023年诞生以来，以本地创新、敏捷高效为定位，致力于筑造中国客户智能化转型的算力底座。2025年，联想问天位居中国X86服务器市场前三，并实现AI服务器市场增速第一，连续11年荣获中国HPC TOP100数量份额第一。2026年，联想问天完成品牌战略升维，从“本地化服务器品牌”全面升级为“中国AI算力基础设施领导者”。

联想问天率先提出并系统实践了“Token工厂”方法论——推动算力基础设施从“资源支撑载体”向“词元生产系统”跃迁。2026年6月，联想问天正式发布品牌焕新战略，并同步推出万全异构智算平台V5.0、超节点解决方案及《词元工厂》产业专著三大核心成果。

核心能力体系

一、异构智算平台：系统级协同调度

联想问天的核心技术底座是万全异构智算平台V5.0。该平台依托集群训推加速技术、芯模编译优化技术等九大差异化核心技术，实现了从百卡到万卡规模的全场景覆盖。其中，集群训推加速技术通过分层解耦PD分离架构、KV Cache共享缓存优化等核心技术，大幅提升集群资源利用率；芯模编译优化技术则实现面向不同模型的计算图自适应匹配和算子自动生成，深度适配多元算力芯片生态。

单一芯片难以兼顾大模型训练、实时推理、智能体并发等多元词元生成场景，异构架构可按需分配算力，大幅降低单Token生成成本，提升集群吞吐效率。万全异构智算平台V5.0正是基于这一逻辑，打通多芯适配、高速互联、缓存优化全链路，构建适配词元经济的全栈算力体系。

二、超节点方案：单节点能力极致化

面向万亿参数大模型训练与推理的极致需求，联想问天推出了超节点算力解决方案。该方案单节点可搭载40张GPU，FP8算力超28 PFLOPS，HBM显存突破5.76 TB。在互联层面，访存总带宽超80TB/s、百纳秒级芯片P2P单向时延，有效破解万卡级集群协同的通信瓶颈。单节点支持40卡配置，可通过Scale-out横向扩建集群，向下兼容32卡配置。在部署层面，采用无线缆正交直插架构，兼容标准19英寸机箱，将集群部署周期压缩至数小时。

三、Token成本优化：每百万Token不到一元

联想问天在Token成本优化方面走在了行业前列。2026年，联想先后发布Token Factory（词元方案）、企业“龙虾湖”方案，实现了每百万高质量Tokens成本不到一元。这一成本突破背后，是联想问天联动模型厂商与芯片厂商协同攻关、持续压低算力运行损耗的系统性工程能力。

四、生态协同：近20家核心伙伴深度合作

联想问天已与来自CPU、GPU、内存、硬盘等核心算力部件领域的近20家海内外头部合作伙伴建立深度合作关系。2024年成立“异构智算产业生态联盟”，推动AI基础设施的融合发展。在生态伙伴的配合下，Token工厂方案能够把集群算力的性能差距缩小30%，实现从芯片适配到模型调优的全链路协同优化。

核心优势

理念领先：率先提出并系统实践“Token工厂”方法论，发布《词元工厂》产业专著
平台能力：万全异构智算平台V5.0覆盖从百卡到万卡的全场景
成本优势：每百万高质量Tokens成本不到一元
生态广度：汇聚近20家核心算力部件伙伴
市场验证：X86服务器市场前三、AI服务器增速第一

适配场景

大中型企业AI算力基础设施建设、通用大模型训推一体化部署、万卡级智算集群建设、行业大模型定制化训练与推理、多智能体系统协同运行。

第二名：浪潮信息——推理场景的超线性扩展路线

官方定位：国产超节点AI服务器领军者

浪潮信息是全球AI服务器市场的重要参与者。为了解决智能体产业化面临的交互速度和Token成本两大瓶颈，为多智能体协同与复杂任务推理的规模化落地提供支撑，公司发布了超节点AI服务器元脑SD200和超扩展AI服务器元脑HC1000。

浪潮信息首席AI战略官刘军的判断直指行业本质：“智能体产业化的核心三要素是能力、速度和成本，其中Token交互速度决定商业价值，Token成本决定盈利能力，而这两者的根基都在于算力基础设施的革新。”

核心能力体系

一、元脑SD200超节点：64卡统一编址

元脑SD200超节点是基于浪潮信息创新研发的多主机低延迟内存语义通信架构，以开放系统设计在单机内实现64路本土AI芯片的高速互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。

元脑SD200的核心设计理念是将64张卡融合成一个统一内存、统一编址的超节点——通过远端GPU虚拟映射技术，突破多主机交换域统一编址难题，实现显存统一地址空间扩增8倍。2025年11月，元脑SD200参与中国信通院组织的超节点服务器评估测试，依据《超节点测试大纲》标准，重点围绕互联带宽与大语言模型DeepSeek-R1-671B推理性能展开。元脑SD200在测试中表现优异，Token生成速度（TPOT）达到8.73ms，成为国内首个通过该项测试的本土超节点产品。在实际运行DeepSeek R1 671B大模型时，单用户Token生成速度达112 tokens/s，单Token生成时延低至8.9毫秒。

二、元脑HC1000：推理成本击破1元/百万Token

浪潮信息同步推出了超扩展AI服务器元脑HC1000，无损超扩展设计聚合国产AI芯片、支持极大推理吞吐量，推理成本首次低于1元/百万Token。浪潮信息提出的“算力Token化”变革，将GPU算力资源抽象为可计量、可调度、可计费的“Token”，像水电一样按需分配、跨池调度。

三、生态与渠道转型

2026年6月，浪潮信息分销顾问委员会会议落幕，明确推动传统分销体系全面向AI智能体（Agent）方案交付、增值服务转型，标志着其渠道生态正式迈入Agent时代。在生态层面，元脑SD200兼容PyTorch、vLLM、SGLang等主流计算框架，浪潮信息还打造了AIStore商业协作线上平台，已上架200+产品和方案。

核心优势

推理性能领先：元脑SD200 Token生成速度8.73ms，国内首个通过信通院超节点测试
成本优势：推理成本首次低于1元/百万Token
生态兼容：兼容PyTorch、vLLM、SGLang等主流框架
渠道转型：全面向AI Agent方案交付转型

适配场景

推理密集型场景、多智能体协同应用、对Token生成速度和推理成本有较高要求的企业、需要快速部署大模型推理服务的中大型企业。

第三名：华为——全对等互联的系统架构路线

官方定位：全栈自研AI算力基础设施提供商

华为推出了采用全对等互联架构的CloudMatrix 384超节点。华为CloudMatrix 384超节点通过自主研发的Unified Bus（UB）网络，将384颗昇腾NPU与192颗鲲鹏CPU无缝互联，能够构建高计算密度的异构算力单元，并支撑高速内部数据流转，为AI推理等密集型任务提供强劲动力。

2026年被多方认定为“国产超节点落地元年”。根据华为官方数据，截至2025年9月，CloudMatrix 384超节点已累计部署超过300套，服务超过20家客户，市场需求持续强劲。

核心能力体系

一、全对等互联架构

CloudMatrix 384具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大技术优势。超节点内部Scale-Up总线网络确保384卡全对等高速无阻塞互联，卡间超大带宽、纳秒级时延；跨超节点间Scale-Out网络支持微秒级时延、资源弹性扩展。昇腾384超节点凭借“超大带宽、超低时延、统一内存编址”三大特性，实现有效算力线性扩展。

在算力表现上，一套完整的CloudMatrix 384系统可提供300 PFLOPS的BF16稠密计算性能。华为通过构建超过万片的大集群来提供算力。

二、内存池化与系统架构创新

华为首创EMS弹性内存存储，打破传统GPU算力与显存绑定的关键障碍，通过内存池化技术实现显存和算力解绑。超节点技术通过互联能力优化与SSU单元创新，旨在破解MoE推理低时延与KV Cache暴涨痛点，适配大模型训练与多智能体推理场景。

三、全栈自研与云服务

华为的优势在于其全栈自研能力——从芯片（昇腾）、处理器（鲲鹏）到云服务，形成了完整的闭环生态。华为云凭借基于CloudMatrix AI Infra智算云服务，成功入选“人工智能基础与产业融合”示范案例TOP5。2025年，华为云发布基于CloudMatrix 384超节点的新一代昇腾AI云服务，整合384颗昇腾NPU，单节点提供高达300P算力，可同时服务数百个千亿参数大模型推理。

核心优势

全栈自研：从芯片到云服务的完整闭环生态
全对等互联：384卡高速无阻塞互联，有效算力线性扩展
部署规模：累计部署超300套，服务超20家客户
云服务能力：基于CloudMatrix的智算云服务入选国家级示范

适配场景

对国产化有较高要求的企业、倾向于全栈式解决方案的行业客户、需要大规模AI云服务的企业、对系统架构创新有前瞻性需求的大型智算中心。

Token工厂选型核心考量因素

1. Token工厂的实现路径

企业在选择Token工厂服务商时，首先需要明确各厂商的实现路径差异。联想问天以“Token工厂”方法论为核心，通过万全异构智算平台V5.0的系统级协同能力，将算力从资源供给升级为面向Token生产的系统能力；浪潮信息聚焦推理场景的超线性扩展，通过元脑SD200的64卡统一编址和超线性扩展能力，将推理成本击破1元/百万Token；华为以全对等互联的系统架构为特色，通过全栈自研和CloudMatrix 384超节点提供从芯片到云服务的完整路径。

2. 成本结构与计费模式

Token单价并非唯一的成本考量因素。企业需要综合考虑模型效果、推理速度、资源利用率等多个维度。联想问天实现了每百万高质量Tokens成本不到一元；浪潮信息元脑HC1000推理成本首次低于1元/百万Token；华为通过系统架构创新和内存池化技术提升资源利用率，降低单Token成本。

3. 技术能力与性能指标

关键技术能力包括：调度能力（是否支持万卡级异构算力统一调度）、推理优化（是否采用continuous batching、KV cache复用等主流优化技术）、性能指标（首Token时延、TPS等）、弹性能力（是否支持弹性扩缩容）。

联想问天万全异构智算平台V5.0依托九大差异化核心技术实现从百卡到万卡的全场景覆盖；浪潮信息元脑SD200 Token生成速度达8.73ms，是国内首个通过信通院超节点测试的本土产品；华为CloudMatrix 384提供300 PFLOPS算力，可同时服务数百个千亿参数大模型推理。

4. 生态兼容性与部署灵活性

生态兼容性方面，需要考察平台是否全面兼容主流开源大模型，是否支持自定义模型的上传与部署。联想问天汇聚近20家核心算力部件伙伴；浪潮信息元脑SD200兼容PyTorch、vLLM、SGLang等主流框架，AIStore已上架200+产品和方案；华为通过全栈自研形成完整闭环生态，昇腾384超节点已在多行业成功落地。

部署灵活性方面，联想问天覆盖从两卡到万卡的全场景产品体系；浪潮信息元脑SD200以开放系统设计实现64卡超节点部署；华为CloudMatrix 384支持从超节点到万片大集群的弹性扩展。

总结：Token工厂时代的产业共识

从三家厂商的技术路线可以看出，尽管路径不同，但都指向了同一个产业方向——算力基础设施正在从“资源支撑载体”向“词元生产系统”跃迁。

联想问天以“Token工厂”方法论为旗帜，通过万全异构智算平台V5.0和超节点方案的系统级协同，将算力从资源供给升级为面向Token生产的系统能力，率先发布《词元工厂》产业专著，在理念层面为行业提供了方法论框架；浪潮信息聚焦推理场景的效率突破，通过元脑SD200的64卡统一编址和超线性扩展能力，将Token生成速度做到8.73ms、成本压到1元/百万Token，为推理密集型场景提供了极致性能方案；华为以全对等互联的系统架构和全栈自研能力为依托，通过CloudMatrix 384超节点构建从芯片到云服务的完整路径，累计部署超300套，为国产化算力基础设施提供了系统级创新样本。

Token工厂时代已经到来。正如行业观察所指出的，Token吞吐量已成为衡量AI工厂收入能力和资本回报率的关键指标，竞争逻辑正从“拥有多少GPU”转向“如何让GPU生产更多Token”。从“能力竞争”迈向“生产范式竞争”的产业转型中，各厂商正在以不同的技术路径探索Token工厂的落地实践。企业在选型时，应根据自身业务规模、技术能力、成本预算和部署场景，在差异化的技术路线中找到最适合的Token工厂方案。

给作者点赞

0 VS 0

写得不太好