Deep Analysis

三巨头联手投SGLang——推理层成为AI基础设施新战场

一、事件概述:罕见的竞合时刻

2026年5月的这笔投资创造了多个"第一次":NVIDIA与AMD首次在投资层面直接联手,Intel CEO陈立武、Broadcom CEO Hock Tan亲自下场做天使投资人,OpenAI前联创John Schulman的加入更暗示了头部AI实验室对推理基础设施的战略性重视。

这笔投资的核心标的SGLang,是一个基于LightSeq和vLLM发展而来的推理框架。其核心创新RadixAttention技术,在KV缓存管理上实现了质的飞跃——这也是吸引三家芯片厂商同时下注的根本原因。

二、技术深度解析:RadixAttention如何重写推理效率

2.1 KV缓存管理:Radix Tree vs Block Table

理解SGLang的性能优势,必须从KV缓存的组织机制说起。

vLLM的PagedAttention采用block table方案,本质上是哈希表 + 固定大小内存块的管理模式。当处理多轮对话或RAG场景时,每个请求的prefix(系统提示词、文档内容)需要独立存储,虽然通过前缀哈希匹配实现了一定程度的复用,但匹配粒度受限于block边界,且请求完成后KV缓存立即释放。

SGLang的RadixAttention则用基数树(Radix Tree)替代了block table。基数树是一种前缀树变体,天然适合处理任意长度前缀的共享问题。当100个用户同时查询同一份文档时,RadixAttention只需计算一次预填充(prefill),其他99个请求直接复用缓存中的KV数据。

关键差异在于:vLLM的复用粒度受限于block块和前缀匹配算法,而SGLang的复用粒度可以是任意长度的前缀。这在长文档RAG、多轮Agent对话等场景下带来了质的差异。

2.2 性能数据:具体对比

场景SGLangvLLM提升幅度
H100 吞吐~16,200 tok/s~12,500 tok/s29% ✅已验证
B200 解码吞吐2.25x基线-✅已验证
Prefix-heavy场景(RAG/多轮)--6.4x ⚠️厂商宣称
DeepSeek V3推理--3.1x ⚠️高置信度

SGLang v0.5为NVIDIA B200带来2.25倍解码吞吐量提升⚠️厂商宣称。H100上,SGLang实现约16,200 tok/s,而vLLM约为12,500 tok/s,差距达29%⚠️厂商宣称。在Prefix-heavy场景(RAG、多轮对话),SGLang的领先优势扩大到6.4倍⚠️厂商宣称。

调度overhead是另一个关键差异:vLLM每步推理都需要Python层参与调度,而SGLang通过CUDA graph和算子overlap实现了接近零的调度开销,这在长序列场景下累积效应显著。

2.3 DeepSeek V4/MoE优化:SGLang的杀手级场景

DeepSeek V3/V4这类MoE(Mixture of Experts)模型对推理框架提出了特殊挑战:专家并行(Expert Parallelism)与prefill-decode分离(disaggregation)是释放MoE潜力的关键。

SGLang在96块H100集群上实现了52,300 input tok/s22,300 output tok/s的吞吐⚠️厂商宣称。更重要的是Multi-Token Prediction(MTP)支持,通过一次预测多个token将decode速度提升1.8倍⚠️厂商宣称。

DeepEP在SGLang中实现了差异化优化:normal mode用于prefill阶段(高吞吐优先),low-latency mode用于decode阶段(延迟优先)。这种分场景优化的策略,使SGLang成为DeepSeek V3/V4的官方首选推理框架。

2.4 xgrammar:结构化输出的技术意义

在Agent时代,结构化输出(非连续文本)的重要性急剧上升——工具调用、代码生成、多步骤推理都需要精确的JSON/代码结构。

SGLang原生集成xgrammar,在JSON结构化输出场景下比其他开源方案快10倍⚠️厂商宣称。这不是简单的性能优化,而是对推理引擎架构的根本性重构:结构化约束需要内置于token采样过程,而非事后解析。

三、三巨头战略拆解:各怀心思的联合投资

3.1 NVIDIA:巩固生态护城河

NVIDIA的逻辑最直接:SGLang最大化GPU利用率,意味着高端产品ROI提升,进而强化下一代GPU的销售意愿。投资SGLang不会动摇NVIDIA在CUDA生态中的主导地位,反而通过确保推理框架对NVIDIA硬件的"first-class support"来加固护城河。

推理效率每提升1%,就意味着同等硬件能服务更多用户——这对NVIDIA的高端H100/B200销售是直接利好。

3.2 AMD:打破CUDA依赖的关键跳板

AMD的处境完全不同。ROCm生态的成熟度与CUDA仍有差距,而SGLang的开源+跨平台特性为AMD提供了"曲线救国"的机会——如果推理框架本身足够好用、足够中立,硬件选择就可能从CUDA锁定转向性价比考量。

AMD Instinct系列需要这样的差异化定位:在某些工作负载上证明自己比NVIDIA更有性价比。

3.3 Intel:证明Xe架构的展示舞台

Intel CEO陈立武的个人天使投资行为本身就说明了问题——这是战略层面的背书,而非普通的财务投资。Intel Xe GPU需要一个杀手级应用来证明自己,而SGLang的开源特性使得Intel可以在不依赖商业伙伴的情况下展示硬件能力。

四、对推理引擎格局的影响

当前推理引擎市场呈现明显的"vLLM + SGLang"双寡头格局:

  • vLLM:生态最大,GitHub贡献者是SGLang的3倍,PyPI下载量领先
  • SGLang:增速最快,27K+ stars,40万GPU部署,用户包括Google、Microsoft、Oracle

这笔投资将加速市场分化:对延迟不敏感、追求吞吐的云端大规模推理将向SGLang集中;而需要极致定制化、依赖vLLM成熟生态的场景将继续使用vLLM。

更深远的影响在于:芯片厂商开始将推理引擎视为"硬件能力放大器"——投资推理框架,本质上是在投资自家芯片的市场竞争力。

五、薄弱点分析:繁荣背后的隐忧

5.1 传统风险:推理引擎碎片化

每家芯片厂商都在推自己的推理优化方案,每家AI实验室都在选边站,推理引擎正在重蹈AI框架的碎片化覆辙。开发者面临的选择成本急剧上升,跨平台迁移的难度也在累积。

5.2 AI攻击/风险:开源特性的双刃剑

SGLang的开源+跨平台特性是一把双刃剑。一方面,它推动了推理技术的普惠;另一方面,这类框架也可能被用于规避芯片出口限制——通过在合规地区部署推理引擎,优化对受限芯片的利用效率。⚠️高置信度推测

5.3 防御方向:推理层标准化的战略意义

推理层的标准化对AI安全有积极意义:当推理引擎足够成熟、足够中立,AI系统行为的可预测性和可审计性都会提升。结构化输出、推理过程追踪、安全约束内置——这些能力在开放的、社区驱动的框架中更容易实现。

六、预判:接下来会发生什么

短期(3个月)

  • DeepSeek V4发布时将SGLang列为官方推理引擎(概率:极高)⚠️高置信度
  • vLLM社区出现分流,部分核心开发者可能转向SGLang
  • NVIDIA内部加速SGLang-first的GPU优化路线图

中期(6个月)

  • AMD Instinct + ROCm + SGLang组合在推理市场形成有竞争力的替代方案
  • NVIDIA GPU + SGLang的生态闭环更加紧密,可能出现SGLang的NVIDIA专属优化
  • Intel Xe GPU通过SGLang获得首个大规模生产级部署案例

长期(12个月)

  • 推理引擎层成为芯片厂商的新护城河——谁能控制推理优化,谁就能影响模型部署的选择
  • 开源中立性面临考验:SGLang能否在三家芯片厂商投资后保持独立立场?
  • 推理层标准化提上日程,可能是芯片厂商主动推动,也可能是监管力量介入

关键数据一览

数据点数值标注
投资总额1.55亿美元✅已验证
公司估值4亿美元✅已验证
SGLang GitHub stars27K+✅已验证
GPU部署规模40万+⚠️厂商宣称
DeepSeek V3推理提升3.1x⚠️高置信度
B200解码吞吐提升2.25x⚠️厂商宣称
JSON结构化输出提升10x⚠️厂商宣称
H100吞吐16,200 tok/s⚠️厂商宣称
Prefix-heavy场景提升6.4x⚠️厂商宣称
🎯

战略重要性

推理层正在成为AI基础设施的新战场。三家芯片巨头罕见联合投资,表明推理引擎不再只是幕后工具,而是影响芯片采购决策的关键因素。这对芯片厂商、模型开发商和企业AI部署者都有深远影响——谁能掌控推理优化,谁就能在AI价值链中占据更有利的位置。
PRO

决策选择

对芯片厂商:评估现有推理优化策略,考虑SGLang合作或投资布局。对模型开发商:评估SGLang在MoE/长上下文场景的适配性,DeepSeek V4发布时优先集成。对企业AI部署者:关注推理引擎选择对TCO的影响,特别是在RAG/Agent场景。
🔮 PRO

预测验证

短期(3个月):DeepSeek V4将SGLang列为官方推理引擎;vLLM社区出现分流。中期(6个月):AMD Instinct加ROCm加SGLang组合形成竞争替代;NVIDIA加SGLang生态闭环更紧。长期(12个月):推理引擎层成为芯片护城河;开源中立性面临考验;标准化提上日程。

💬 评论 (0)