Google Google TurboQuant：KV缓存压缩6倍，内存股应声下跌——AI推理效率拐点信号是什么？

Google 1970-01-01

Google TurboQuant：KV缓存压缩6倍，内存股应声下跌——AI推理效率拐点信号

内容摘要

Google研究院发布TurboQuant算法，将大模型KV缓存内存占用压缩6倍（3-bit量化），注意力计算速度提升8倍，且无可测量的精度损失。论文将在ICLR 2026发表，作者包括Google研究科学家Amir Zandieh和Google Fellow Vahab Mirrokni，以及Google DeepMind、KAIST和NYU的合作者。技术核心为两阶段压缩：PolarQuant将向量从笛卡尔坐标转换为极坐标，消除逐块归一化开销；QJL基于Johnson-Lindenstrauss变换将残差误差压缩至每维度1个符号位。在Gemma、Mistral、Llama系列模型上测试，3-bit TurboQuant在LongBench、Needle in a Haystack、ZeroSCROLLS五个标准基准上匹配或超过KIVI（ICML 2024当前SOTA）。4-bit配置下H100注意力计算速度提升8倍。发布数小时内，内存股下跌：Micron -3%，Western Digital -4.7%，SanDisk -5.7%。Wells Fargo分析师指出TurboQuant直接攻击AI系统内存成本曲线，但同时警告需求基本面仍强。TurboQuant还改善了向量搜索性能（GloVe基准），直接服务于Google Search、YouTube推荐和广告定向等核心业务。对HBM需求叙事构成结构性挑战：如果KV缓存压缩6倍成为行业标准，内存需求增速可能显著放缓。

来源： Google Research Blog / AllUSNewsHub

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

觉得这篇分析有用？

💬 评论 (0)