Lexar用SSD卸载AI模型:DRAM成本降低40%,但延迟问题未解
内容摘要
核心要点
Lexar的AI Storage Core SSD采用自研SPU(Storage Processing Unit)DRAM-less控制器,通过硬件与软件优化将大语言模型(LLM)卸载到NAND Flash,大幅降低DRAM需求。在内部测试中,运行Qwen 3.5 122B模型时,传统方案需要128GB DRAM且仅5.2 tokens/s,而Lexar方案仅需32GB DRAM,可达15.6 tokens/s。对于122B模型在32GB DRAM下,传统Llama.cpp直接崩溃,Lexar方案提供4.4 tokens/s。在64GB DRAM和256K上下文窗口下,仅Lexar方案能运行并达到19.3 tokens/s。
然而,首次token延迟(TTFM)显著:2K上下文时约2秒,4K上下文时增至6-8秒。Lexar声称可卸载高达400B参数模型,但吞吐量和TTFM会非常慢。该SSD采用PCIe Gen5接口,支持热插拔M.2设计,但延迟瓶颈本质上是NAND Flash相比DRAM的访问速度差距,无法通过控制器完全消除。
重要性说明
Lexar此举表面上是降低AI推理成本,实则是在防守传统DRAM厂商(三星、SK海力士)对AI内存市场的垄断,同时合围NVIDIA等GPU厂商对高带宽内存的依赖。其核心控制点从DRAM容量转向SPU控制器与软件栈,试图通过专有协议锁定用户:一旦采用Lexar AI套件,后续SSD升级必须兼容其SPU和优化算法,形成存储生态锁定。
原文故意淡化了TTFM延迟在交互式AI场景中的致命性:2-8秒的首次token延迟对于聊天机器人、实时推理几乎不可用。此外,PCIe Gen5带宽在卸载大型模型时可能成为瓶颈,而SPU控制器的处理能力未知,存在尾部延迟(Tail Latency)风险。Lexar未提及在并发多用户或高负载下的性能退化,也未对比NVMe over Fabrics等更成熟的卸载方案。本质上,这是用廉价NAND换取延迟和吞吐量,只适合批处理、非实时任务,如离线文档分析、后台内容生成。
PRO 决策建议
【厂商】竞争对手(三星、西部数据、美光)应加速开发标准化AI卸载方案,基于NVMe ZNS或Open Channel SSD,强调与主流AI框架(如Llama.cpp、vLLM)的原生兼容性,避免专有SPU锁定。同时推出低延迟NAND优化技术(如SLC缓存、ZC-Roller),在性能上压制Lexar的短板。
【企业】CIO与架构师需对Lexar方案进行零信任技术审计:实测TTFM与尾部延迟在真实负载下的表现,评估是否满足业务SLA。警惕SPU控制器的版本迭代导致资产折旧,要求厂商提供跨平台可移植性承诺。优先考虑DRAM扩展或GPU显存卸载等成熟路径,除非场景明确为批处理且延迟容忍度高。
【投资者】看穿Lexar公关辞令:该技术本质是存储厂商在AI时代的生存尝试,而非颠覆性突破。短期关注其OEM合作与专利布局,但长期需警惕延迟天花板与竞争对手标准化反击。若Lexar无法在2年内将TTFM降至1秒以内,该产品将沦为小众玩具。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)