谷歌 TurboQuant 引爆存储芯片崩盘：AI 内存占用锐降至 1/6、推理狂飙 8 倍

IT之家故渊

谷歌研究院昨日（3 月 25 日）发布博文，推出全新极端压缩算法 TurboQuant，有望重塑 AI 运行效率并解决大模型键值缓存（KV Cache）的内存瓶颈。

向量是 AI 模型理解和处理信息的基础，但高维向量会消耗海量内存，从而在键值缓存（KV Cache）中引发严重的性能瓶颈。

注：键值缓存是大语言模型生成文本时使用的一种高速缓存机制，通过存储历史计算结果来避免重复计算，但极易造成内存瓶颈。

传统的高维向量量化技术虽然能压缩数据，却常常因为需要为微小数据块计算和存储量化常数，引入了额外的“内存开销”。这种额外负担部分抵消了压缩原本带来的优势，导致 AI 大模型在处理长文本或大规模搜索时依然受限。

谷歌研究院为彻底解决这一难题，推出了全新压缩算法 TurboQuant。同时，研究团队还公布了支撑该算法的两项核心底层技术：量化 Johnson-Lindenstrauss（QJL）和 PolarQuant（将亮相 AISTATS 2026）。

这三项技术协同工作，为高度依赖数据压缩的 AI 与搜索业务带来了全新解法，能够在完全不牺牲 AI 模型预测性能的前提下，大幅削减键值缓存的内存占用。

在运行机制方面，TurboQuant 分为两个关键步骤。首先，它利用 PolarQuant 方法进行高质量的主体压缩。该方法打破常规，放弃了传统的笛卡尔坐标系，转而将数据向量转换为极坐标。

这种转换将数据映射到边界已知的固定“圆形”网格上，免去了昂贵的数据归一化步骤，彻底消除了传统方法的内存开销。

随后，TurboQuant 利用 QJL 算法处理第一步遗留的微小误差。QJL 仅需 1 比特的残差压缩算力，就能像数学纠错机一样消除偏差，确保模型计算出精准的注意力分数。

研究团队在 Gemma 和 Mistral 等开源大模型上进行了严格的基准测试。实验数据表明，TurboQuant 无需任何预训练或微调，就能极其高效地将键值缓存压缩至 3 比特，并在“大海捞针”等长上下文测试中实现零精度损失，同时将内存占用降低至 1/6。

此外，在 H100 GPU 加速器上，4 比特 TurboQuant 的运行速度比未量化的 32 比特基准提升了高达 8 倍。

谷歌 TurboQuant 压缩算法搅动万亿市场，存储芯片板块遭遇「黑色时刻」，巨头股价全线飘绿，截至收盘，美光科技下跌 4%，西部数据下跌 4.4%，希捷下跌 5.6%，闪迪更是重挫 6.5%。

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好