NVIDIA 1970-01-01

Technology Integration 影响: Major 置信: 92%

SGLang 0.5.13发布：MoE两阶段路由预判+稀疏缓存，推理性能跃升25倍

内容摘要

SGLang 0.5.13引入MoE模型专用路由预判（轻量代理网络预加载top-k expert权重）和稀疏KV缓存（按激活路径分组缓存），在NVIDIA GB300 NVL72平台实现25倍推理加速。A100实测吞吐+65%，延迟-40%，显存-10%，路由开销-62%，全面超越vLLM。

核心要点

SGLang 0.5.13的核心更新聚焦于MoE模型的两大工程优化：

路由预判（Routing Prefetch）：通过一个轻量代理网络（通常为单层MLP）提前预测当前token将激活的top-k expert，在token到达expert前预加载权重，消除权重加载延迟。实测路由开销从11.2ms降至4.3ms（-62%）。
稀疏KV缓存（Sparse KV Cache）：不再为所有token维护完整KV缓存，而是按MoE的激活路径（即token所经过的expert组合）分组缓存。仅保留当前路径相关的KV，避免全量展开，显存占用从52.1GB降至46.8GB（-10%）。

在GB300 NVL72平台上，结合NVIDIA最新硬件（推测为Blackwell Ultra架构），SGLang实现25倍推理性能提升（相比HGX H200基线）。A100单卡测试Step-3.7-Flash（MoE 42B总参/12B激活）时，吞吐量从278提升至459 tokens/s（+65%），p50延迟从1.82s降至1.09s（-40%）。对比vLLM 0.23.0，SGLang吞吐领先约16%，显存少用8GB。
SGLang已部署于全球超40万块GPU，被xAI、AMD、NVIDIA、LinkedIn、Cursor等采用，由LMSYS托管，并获a16z开源AI Grant。注意：--prefetch-expert仅对MoE模型生效，Dense模型开启会多占显存；0.5.12的--use-experimental-scheduler参数已移除。

重要性说明

SGLang这一更新表面是开源社区的常规迭代，实则是NVIDIA通过软件栈进一步锁定其硬件生态的战略动作：

防守/合围谁？ 直接针对vLLM和TensorRT-LLM。SGLang通过MoE专用优化（路由预判+稀疏KV）建立性能护城河，迫使竞争对手在相同硬件上难以追赶，从而巩固NVIDIA GPU在推理市场的统治地位。同时，也合围了AMD MI300X等潜在替代硬件——因为优化高度依赖NVIDIA的CUDA生态和特定硬件特性（如GB300 NVL72的NVLink带宽）。
隐性锁定用户什么资产？ 用户一旦深度采用SGLang的MoE优化，其推理流水线将高度耦合于SGLang的调度器（如--prefetch-expert参数），迁移到其他框架（如vLLM）需要重新调优路由策略和缓存策略，造成迁移成本。此外，稀疏KV缓存按激活路径分组，意味着缓存策略与模型架构绑定，更换模型或硬件平台时可能失效。
故意隐瞒了什么物理限制/成本陷阱？ 1) 路由预判的代理网络虽然轻量，但增加了计算开销和额外显存占用（原文未提代理网络本身的资源消耗）。在低负载场景下，预判可能成为瓶颈。2) 稀疏KV缓存在长序列或多轮对话中，激活路径可能快速膨胀，导致缓存碎片化或命中率下降，原文未提供长序列测试数据。3) 25x加速仅在GB300 NVL72上实现，而该平台尚未量产，实际可用性存疑。A100上的65%提升虽可观，但相比25x差距巨大，存在夸大营销嫌疑。4) 对比vLLM的测试未披露vLLM的配置是否最优（如是否开启PagedAttention优化），可能存在不公平对比。

PRO 决策建议

【厂商】vLLM、TensorRT-LLM等竞争对手应立即在MoE路由预判和稀疏KV缓存领域加大投入，并利用开源社区力量复现SGLang的优化，同时突出自身在Dense模型和异构硬件（如AMD、Intel）上的兼容性优势。应联合云厂商（如AWS、GCP）提供无需特定硬件绑定的替代推理方案，攻击SGLang对GB300 NVL72的依赖。
【企业】CIO和架构师应进行零信任技术审计：测试SGLang 0.5.13在现有GPU集群（如A100、H100）上的实际收益，尤其关注长序列场景下的稀疏KV缓存命中率和路由预判的额外开销。要求供应商提供跨硬件平台（AMD MI300X、Intel Gaudi）的对比基准，避免被单一硬件锁定。评估从vLLM迁移到SGLang的改造成本，并保留回退路径。
【投资者】看穿NVIDIA通过SGLang推动GB300 NVL72出货的意图。短期SGLang的优化利好NVIDIA GPU销售，但长期看，开源框架的快速迭代可能削弱硬件差异（例如AMD也能运行SGLang）。关注vLLM等竞品的追赶速度，以及云厂商自研推理加速器的进展（如AWS Trainium2）。警惕SGLang过度营销25x加速但实际落地受限的风险。

来源： SGLang PyPI / NVIDIA Blog / LMSYS

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)