这项动态的影响程度如何？

该情报被评估为对企业具有次要影响，建议技术决策者关注。

NVIDIA 2026-06-16

Product Launch 影响: Minor 置信: 85%

Lexar用SSD卸载AI模型：DRAM成本降低40%，但延迟问题未解

Q: 为什么NVIDIA的这项动态对企业重要？

Lexar此举表面上是降低AI推理成本，实则是在**防守传统DRAM厂商**（三星、SK海力士）对AI内存市场的垄断，同时**合围NVIDIA**等GPU厂商对高带宽内存的依赖。其核心控制点从DRAM容量转向**SPU控制器与软件栈**，试图通过专有协议锁定用户：一旦采用Lexar AI套件，后续SSD升级必须兼容其SPU和优化算法，形成**存储生态锁定**。 原文故意淡化了**TTFM延迟**在交互式AI场景中的致命性：2-8秒的首次token延迟对于聊天机器人、实时推理几乎不可用。此外，**PCIe Gen5带宽**在卸载大型模型时可能成为瓶颈，而SPU控制器的处理能力未知，存在**尾部延迟（Tail Latency）**风险。Lexar未提及在并发多用户或高负载下的性能退化，也未对比**NVMe over Fabrics**等更成熟的卸载方案。本质上，这是用廉价NAND换取延迟和吞吐量，只适合批处理、非实时任务，如离线文档分析、后台内容生成。

内容摘要

Lexar发布AI Storage Core SSD，通过自研SPU DRAM-less控制器和软件栈，将大语言模型卸载到NAND Flash，使Qwen 3.5 122B模型在32GB DRAM上运行，速度达15.6 tokens/s，相比传统方案提升3倍，但首次token延迟（TTFM）达2-8秒，限制了实时交互场景。

核心要点

Lexar的AI Storage Core SSD采用自研SPU（Storage Processing Unit）DRAM-less控制器，通过硬件与软件优化将大语言模型（LLM）卸载到NAND Flash，大幅降低DRAM需求。在内部测试中，运行Qwen 3.5 122B模型时，传统方案需要128GB DRAM且仅5.2 tokens/s，而Lexar方案仅需32GB DRAM，可达15.6 tokens/s。对于122B模型在32GB DRAM下，传统Llama.cpp直接崩溃，Lexar方案提供4.4 tokens/s。在64GB DRAM和256K上下文窗口下，仅Lexar方案能运行并达到19.3 tokens/s。

然而，首次token延迟（TTFM）显著：2K上下文时约2秒，4K上下文时增至6-8秒。Lexar声称可卸载高达400B参数模型，但吞吐量和TTFM会非常慢。该SSD采用PCIe Gen5接口，支持热插拔M.2设计，但延迟瓶颈本质上是NAND Flash相比DRAM的访问速度差距，无法通过控制器完全消除。

重要性说明

Lexar此举表面上是降低AI推理成本，实则是在防守传统DRAM厂商（三星、SK海力士）对AI内存市场的垄断，同时合围NVIDIA等GPU厂商对高带宽内存的依赖。其核心控制点从DRAM容量转向SPU控制器与软件栈，试图通过专有协议锁定用户：一旦采用Lexar AI套件，后续SSD升级必须兼容其SPU和优化算法，形成存储生态锁定。

原文故意淡化了TTFM延迟在交互式AI场景中的致命性：2-8秒的首次token延迟对于聊天机器人、实时推理几乎不可用。此外，PCIe Gen5带宽在卸载大型模型时可能成为瓶颈，而SPU控制器的处理能力未知，存在尾部延迟（Tail Latency）风险。Lexar未提及在并发多用户或高负载下的性能退化，也未对比NVMe over Fabrics等更成熟的卸载方案。本质上，这是用廉价NAND换取延迟和吞吐量，只适合批处理、非实时任务，如离线文档分析、后台内容生成。

PRO 决策建议

【厂商】竞争对手（三星、西部数据、美光）应加速开发标准化AI卸载方案，基于NVMe ZNS或Open Channel SSD，强调与主流AI框架（如Llama.cpp、vLLM）的原生兼容性，避免专有SPU锁定。同时推出低延迟NAND优化技术（如SLC缓存、ZC-Roller），在性能上压制Lexar的短板。

【企业】CIO与架构师需对Lexar方案进行零信任技术审计：实测TTFM与尾部延迟在真实负载下的表现，评估是否满足业务SLA。警惕SPU控制器的版本迭代导致资产折旧，要求厂商提供跨平台可移植性承诺。优先考虑DRAM扩展或GPU显存卸载等成熟路径，除非场景明确为批处理且延迟容忍度高。

【投资者】看穿Lexar公关辞令：该技术本质是存储厂商在AI时代的生存尝试，而非颠覆性突破。短期关注其OEM合作与专利布局，但长期需警惕延迟天花板与竞争对手标准化反击。若Lexar无法在2年内将TTFM降至1秒以内，该产品将沦为小众玩具。

来源： Techpowerup

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)