Google TurboQuant:KV缓存压缩6倍,内存股应声下跌——AI推理效率拐点信号
内容摘要
Google研究院发布TurboQuant算法,将大模型KV缓存内存占用压缩6倍(3-bit量化),注意力计算速度提升8倍,且无可测量的精度损失。论文将在ICLR 2026发表,作者包括Google研究科学家Amir Zandieh和Google Fellow Vahab Mirrokni,以及Google DeepMind、KAIST和NYU的合作者。技术核心为两阶段压缩:PolarQuant将向量从笛卡尔坐标转换为极坐标,消除逐块归一化开销;QJL基于Johnson-Lindenstrauss变换将残差误差压缩至每维度1个符号位。在Gemma、Mistral、Llama系列模型上测试,3-bit TurboQuant在LongBench、Needle in a Haystack、ZeroSCROLLS五个标准基准上匹配或超过KIVI(ICML 2024当前SOTA)。4-bit配置下H100注意力计算速度提升8倍。发布数小时内,内存股下跌:Micron -3%,Western Digital -4.7%,SanDisk -5.7%。Wells Fargo分析师指出TurboQuant直接攻击AI系统内存成本曲线,但同时警告需求基本面仍强。TurboQuant还改善了向量搜索性能(GloVe基准),直接服务于Google Search、YouTube推荐和广告定向等核心业务。对HBM需求叙事构成结构性挑战:如果KV缓存压缩6倍成为行业标准,内存需求增速可能显著放缓。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)