资讯
2026/3/26 13:21

谷歌 TurboQuant 引爆存储芯片崩盘:AI 内存占用锐降至 1/6、推理狂飙 8 倍

0
0

谷歌研究院昨日(3 月 25 日)发布博文,推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈。

向量是 AI 模型理解和处理信息的基础,但高维向量会消耗海量内存,从而在键值缓存(KV Cache)中引发严重的性能瓶颈。

注:键值缓存是大语言模型生成文本时使用的一种高速缓存机制,通过存储历史计算结果来避免重复计算,但极易造成内存瓶颈。

传统的高维向量量化技术虽然能压缩数据,却常常因为需要为微小数据块计算和存储量化常数,引入了额外的“内存开销”。这种额外负担部分抵消了压缩原本带来的优势,导致 AI 大模型在处理长文本或大规模搜索时依然受限。

谷歌研究院为彻底解决这一难题,推出了全新压缩算法 TurboQuant。同时,研究团队还公布了支撑该算法的两项核心底层技术:量化 Johnson-Lindenstrauss(QJL)和 PolarQuant(将亮相 AISTATS 2026)。

这三项技术协同工作,为高度依赖数据压缩的 AI 与搜索业务带来了全新解法,能够在完全不牺牲 AI 模型预测性能的前提下,大幅削减键值缓存的内存占用。

在运行机制方面,TurboQuant 分为两个关键步骤。首先,它利用 PolarQuant 方法进行高质量的主体压缩。该方法打破常规,放弃了传统的笛卡尔坐标系,转而将数据向量转换为极坐标。

这种转换将数据映射到边界已知的固定“圆形”网格上,免去了昂贵的数据归一化步骤,彻底消除了传统方法的内存开销。

随后,TurboQuant 利用 QJL 算法处理第一步遗留的微小误差。QJL 仅需 1 比特的残差压缩算力,就能像数学纠错机一样消除偏差,确保模型计算出精准的注意力分数。

研究团队在 Gemma 和 Mistral 等开源大模型上进行了严格的基准测试。实验数据表明,TurboQuant 无需任何预训练或微调,就能极其高效地将键值缓存压缩至 3 比特,并在“大海捞针”等长上下文测试中实现零精度损失,同时将内存占用降低至 1/6。

此外,在 H100 GPU 加速器上,4 比特 TurboQuant 的运行速度比未量化的 32 比特基准提升了高达 8 倍。

谷歌 TurboQuant 压缩算法搅动万亿市场,存储芯片板块遭遇「黑色时刻」,巨头股价全线飘绿,截至收盘,美光科技下跌 4%,西部数据下跌 4.4%,希捷下跌 5.6%,闪迪更是重挫 6.5%。

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销