随着AI任务从云端广泛下沉至设备边缘,端侧AI正经历从单一感知到复杂多模态交互的深刻变革。这一进化对底层算力提出了前所未有的要求:它不再是简单的算力堆砌,而是对计算效率、能效和整体系统优化的终极考验。在此背景下,异构计算成为必然选择,而NPU作为专为AI定制的计算单元,其核心地位日益凸显。
近日,安谋科技Arm China正式发布其最新一代NPU IP“周易”X3。该产品并非一次简单的迭代升级,而是从底层架构上为端侧大模型量身定制的革新之作。它旨在与Arm CPU、GPU协同,构建一个真正高效、灵活的异构算力底座,直指当前端侧AI在部署大模型时面临的算力、带宽、能效等多重痛点。

一、架构革新,DSP+DSA双剑合璧,决胜大模型算效
“周易”X3的核心突破在于其采用的最新DSP+DSA架构。这一专为大模型设计的架构,实现了从定点计算到浮点计算的关键跨越,为复杂模型提供了更高的精度和动态范围。
“周易”X3其具体性能指标令人瞩目,算力方面,单Cluster可提供高达8-80 FP8 TFLOPS的灵活算力配置。带宽方面,单Core带宽高达256GB/s,有效缓解了制约大模型运行的“内存墙”瓶颈。此外,“周易”X3支持W4A8/W4A16等端侧大模型运行必备的量化加速模式,显著提升计算效率与密度。
尤为值得一提的是,“周易”X3集成了自研的硬件解压引擎WDC。该技术能对经过软件无损压缩的大模型权重进行硬件解压,从而额外获得约15%的等效带宽提升,这是一项极具巧思的“带宽扩容”技术。

二、系统优化,超低负载,释放端侧AI多任务潜力
除了强大的计算性能与带宽优势,“周易”X3在系统级优化方面实现了重要技术飞跃。其集成的AI专属硬件引擎AIFF与专用硬化调度器协同工作,构建起一套高效的异构计算架构,能够将CPU从繁重的AI任务调度中解放出来,把相关负载大幅降低至0.5%的极低水平,同时实现微秒级的超低调度延迟。
这套系统级优化方案带来的直接优势在于:当搭载“周易”X3的终端设备需要并行处理语音识别、环境感知和图像处理等多项AI任务时,各个任务之间能够实现精准的资源分配与无缝切换。用户在实际使用中几乎感受不到任何卡顿或延迟,系统响应始终保持高效流畅。这种“无感”却强大的多任务AI体验,正是“周易”X3在系统架构设计上的突破所赋予的独特价值,也让端侧智能的真正普及向前迈进了一大步。

三、瞄准四大领域,驱动端侧AI规模化部署
凭借其在能效比、计算密度与通用性等方面的综合优势,“周易”X3作为新一代AI推理芯片,致力于为基础设施、智能汽车、移动终端、智能物联网这四大关键领域提供强大、可靠的核心AI算力支撑。
在具体应用中,“周易”X3能够高效处理从复杂的云端推理到实时性要求极高的边缘场景任务。例如,在智能汽车领域,它能同时流畅地支持多路高清摄像头进行环境感知和驾驶员状态监控;在智能物联网端,它则能让安防摄像头具备更精准的人形识别与行为分析能力,或让智能家居设备实现更自然的语音交互。它的发布,其战略意 图十分明确:就是要通过其突破性的硬件架构设计与软件工具链的深度优化,树立起端侧AI在计算效率、功耗控制及成本效益上的全新行业标杆。

作为安谋科技的战略核心产品,“周易”NPU的研发与支持100%来自中国本土团队,至今已成功交付五代产品,积累了深厚的技术与市场经验。在当前中国已成为全球端侧AI创新与落地桥头堡的背景下,“周易”X3的推出,背靠Arm全球生态系统,深度融合自研IP,无疑将为国内如火如荼的AI应用创新注入一股强劲的“芯”动力。 







































