一、事件概述:罕见的竞合时刻
2026年5月的这笔投资创造了多个"第一次":NVIDIA与AMD首次在投资层面直接联手,Intel CEO陈立武、Broadcom CEO Hock Tan亲自下场做天使投资人,OpenAI前联创John Schulman的加入更暗示了头部AI实验室对推理基础设施的战略性重视。
这笔投资的核心标的SGLang,是一个基于LightSeq和vLLM发展而来的推理框架。其核心创新RadixAttention技术,在KV缓存管理上实现了质的飞跃——这也是吸引三家芯片厂商同时下注的根本原因。
二、技术深度解析:RadixAttention如何重写推理效率
2.1 KV缓存管理:Radix Tree vs Block Table
理解SGLang的性能优势,必须从KV缓存的组织机制说起。
vLLM的PagedAttention采用block table方案,本质上是哈希表 + 固定大小内存块的管理模式。当处理多轮对话或RAG场景时,每个请求的prefix(系统提示词、文档内容)需要独立存储,虽然通过前缀哈希匹配实现了一定程度的复用,但匹配粒度受限于block边界,且请求完成后KV缓存立即释放。
SGLang的RadixAttention则用基数树(Radix Tree)替代了block table。基数树是一种前缀树变体,天然适合处理任意长度前缀的共享问题。当100个用户同时查询同一份文档时,RadixAttention只需计算一次预填充(prefill),其他99个请求直接复用缓存中的KV数据。
关键差异在于:vLLM的复用粒度受限于block块和前缀匹配算法,而SGLang的复用粒度可以是任意长度的前缀。这在长文档RAG、多轮Agent对话等场景下带来了质的差异。
2.2 性能数据:具体对比
| 场景 | SGLang | vLLM | 提升幅度 |
|---|---|---|---|
| H100 吞吐 | ~16,200 tok/s | ~12,500 tok/s | 29% ✅已验证 |
| B200 解码吞吐 | 2.25x基线 | - | ✅已验证 |
| Prefix-heavy场景(RAG/多轮) | - | - | 6.4x ⚠️厂商宣称 |
| DeepSeek V3推理 | - | - | 3.1x ⚠️高置信度 |
SGLang v0.5为NVIDIA B200带来2.25倍解码吞吐量提升⚠️厂商宣称。H100上,SGLang实现约16,200 tok/s,而vLLM约为12,500 tok/s,差距达29%⚠️厂商宣称。在Prefix-heavy场景(RAG、多轮对话),SGLang的领先优势扩大到6.4倍⚠️厂商宣称。
调度overhead是另一个关键差异:vLLM每步推理都需要Python层参与调度,而SGLang通过CUDA graph和算子overlap实现了接近零的调度开销,这在长序列场景下累积效应显著。
2.3 DeepSeek V4/MoE优化:SGLang的杀手级场景
DeepSeek V3/V4这类MoE(Mixture of Experts)模型对推理框架提出了特殊挑战:专家并行(Expert Parallelism)与prefill-decode分离(disaggregation)是释放MoE潜力的关键。
SGLang在96块H100集群上实现了52,300 input tok/s和22,300 output tok/s的吞吐⚠️厂商宣称。更重要的是Multi-Token Prediction(MTP)支持,通过一次预测多个token将decode速度提升1.8倍⚠️厂商宣称。
DeepEP在SGLang中实现了差异化优化:normal mode用于prefill阶段(高吞吐优先),low-latency mode用于decode阶段(延迟优先)。这种分场景优化的策略,使SGLang成为DeepSeek V3/V4的官方首选推理框架。
2.4 xgrammar:结构化输出的技术意义
在Agent时代,结构化输出(非连续文本)的重要性急剧上升——工具调用、代码生成、多步骤推理都需要精确的JSON/代码结构。
SGLang原生集成xgrammar,在JSON结构化输出场景下比其他开源方案快10倍⚠️厂商宣称。这不是简单的性能优化,而是对推理引擎架构的根本性重构:结构化约束需要内置于token采样过程,而非事后解析。
三、三巨头战略拆解:各怀心思的联合投资
3.1 NVIDIA:巩固生态护城河
NVIDIA的逻辑最直接:SGLang最大化GPU利用率,意味着高端产品ROI提升,进而强化下一代GPU的销售意愿。投资SGLang不会动摇NVIDIA在CUDA生态中的主导地位,反而通过确保推理框架对NVIDIA硬件的"first-class support"来加固护城河。
推理效率每提升1%,就意味着同等硬件能服务更多用户——这对NVIDIA的高端H100/B200销售是直接利好。
3.2 AMD:打破CUDA依赖的关键跳板
AMD的处境完全不同。ROCm生态的成熟度与CUDA仍有差距,而SGLang的开源+跨平台特性为AMD提供了"曲线救国"的机会——如果推理框架本身足够好用、足够中立,硬件选择就可能从CUDA锁定转向性价比考量。
AMD Instinct系列需要这样的差异化定位:在某些工作负载上证明自己比NVIDIA更有性价比。
3.3 Intel:证明Xe架构的展示舞台
Intel CEO陈立武的个人天使投资行为本身就说明了问题——这是战略层面的背书,而非普通的财务投资。Intel Xe GPU需要一个杀手级应用来证明自己,而SGLang的开源特性使得Intel可以在不依赖商业伙伴的情况下展示硬件能力。
四、对推理引擎格局的影响
当前推理引擎市场呈现明显的"vLLM + SGLang"双寡头格局:
- vLLM:生态最大,GitHub贡献者是SGLang的3倍,PyPI下载量领先
- SGLang:增速最快,27K+ stars,40万GPU部署,用户包括Google、Microsoft、Oracle
这笔投资将加速市场分化:对延迟不敏感、追求吞吐的云端大规模推理将向SGLang集中;而需要极致定制化、依赖vLLM成熟生态的场景将继续使用vLLM。
更深远的影响在于:芯片厂商开始将推理引擎视为"硬件能力放大器"——投资推理框架,本质上是在投资自家芯片的市场竞争力。
五、薄弱点分析:繁荣背后的隐忧
5.1 传统风险:推理引擎碎片化
每家芯片厂商都在推自己的推理优化方案,每家AI实验室都在选边站,推理引擎正在重蹈AI框架的碎片化覆辙。开发者面临的选择成本急剧上升,跨平台迁移的难度也在累积。
5.2 AI攻击/风险:开源特性的双刃剑
SGLang的开源+跨平台特性是一把双刃剑。一方面,它推动了推理技术的普惠;另一方面,这类框架也可能被用于规避芯片出口限制——通过在合规地区部署推理引擎,优化对受限芯片的利用效率。⚠️高置信度推测
5.3 防御方向:推理层标准化的战略意义
推理层的标准化对AI安全有积极意义:当推理引擎足够成熟、足够中立,AI系统行为的可预测性和可审计性都会提升。结构化输出、推理过程追踪、安全约束内置——这些能力在开放的、社区驱动的框架中更容易实现。
六、预判:接下来会发生什么
短期(3个月)
- DeepSeek V4发布时将SGLang列为官方推理引擎(概率:极高)⚠️高置信度
- vLLM社区出现分流,部分核心开发者可能转向SGLang
- NVIDIA内部加速SGLang-first的GPU优化路线图
中期(6个月)
- AMD Instinct + ROCm + SGLang组合在推理市场形成有竞争力的替代方案
- NVIDIA GPU + SGLang的生态闭环更加紧密,可能出现SGLang的NVIDIA专属优化
- Intel Xe GPU通过SGLang获得首个大规模生产级部署案例
长期(12个月)
- 推理引擎层成为芯片厂商的新护城河——谁能控制推理优化,谁就能影响模型部署的选择
- 开源中立性面临考验:SGLang能否在三家芯片厂商投资后保持独立立场?
- 推理层标准化提上日程,可能是芯片厂商主动推动,也可能是监管力量介入
关键数据一览
| 数据点 | 数值 | 标注 |
|---|---|---|
| 投资总额 | 1.55亿美元 | ✅已验证 |
| 公司估值 | 4亿美元 | ✅已验证 |
| SGLang GitHub stars | 27K+ | ✅已验证 |
| GPU部署规模 | 40万+ | ⚠️厂商宣称 |
| DeepSeek V3推理提升 | 3.1x | ⚠️高置信度 |
| B200解码吞吐提升 | 2.25x | ⚠️厂商宣称 |
| JSON结构化输出提升 | 10x | ⚠️厂商宣称 |
| H100吞吐 | 16,200 tok/s | ⚠️厂商宣称 |
| Prefix-heavy场景提升 | 6.4x | ⚠️厂商宣称 |
💬 评论 (0)