三巨头联手投SGLang——推理层成为AI基础设施新战场是什么？

2026年5月，NVIDIA、AMD、Intel三家芯片巨头罕见联合投资RadixArk（SGLang推理引擎开发方），投资额达1.55亿美元，估值4亿美元。这笔交易标志着推理层从幕后工具正式升级为AI基础设施的核心战场——芯片厂商开始将推理引擎视为生态控制权的关键棋子。

三巨头联手投SGLang——推理层成为AI基础设施新战场：

一、事件概述：罕见的竞合时刻

2026年5月的这笔投资创造了多个"第一次"：NVIDIA与AMD首次在投资层面直接联手，Intel CEO陈立武、Broadcom CEO Hock Tan亲自下场做天使投资人，OpenAI前联创John Schulman的加入更暗示了头部AI实验室对推理基础设施的战略性重视。

这笔投资的核心标的SGLang，是一个基于LightSeq和vLLM发展而来的推理框架。其核心创新RadixAttention技术，在KV缓存管理上实现了质的飞跃——这也是吸引三家芯片厂商同时下注的根本原因。

二、技术深度解析：RadixAttention如何重写推理效率

2.1 KV缓存管理：Radix Tree vs Block Table

理解SGLang的性能优势，必须从KV缓存的组织机制说起。

vLLM的PagedAttention采用block table方案，本质上是哈希表 + 固定大小内存块的管理模式。当处理多轮对话或RAG场景时，每个请求的prefix（系统提示词、文档内容）需要独立存储，虽然通过前缀哈希匹配实现了一定程度的复用，但匹配粒度受限于block边界，且请求完成后KV缓存立即释放。

SGLang的RadixAttention则用基数树（Radix Tree）替代了block table。基数树是一种前缀树变体，天然适合处理任意长度前缀的共享问题。当100个用户同时查询同一份文档时，RadixAttention只需计算一次预填充（prefill），其他99个请求直接复用缓存中的KV数据。

关键差异在于：vLLM的复用粒度受限于block块和前缀匹配算法，而SGLang的复用粒度可以是任意长度的前缀。这在长文档RAG、多轮Agent对话等场景下带来了质的差异。

2.2 性能数据：具体对比

场景	SGLang	vLLM	提升幅度
H100 吞吐	~16,200 tok/s	~12,500 tok/s	29% ✅已验证
B200 解码吞吐	2.25x基线	-	✅已验证
Prefix-heavy场景（RAG/多轮）	-	-	6.4x ⚠️厂商宣称
DeepSeek V3推理	-	-	3.1x ⚠️高置信度

SGLang v0.5为NVIDIA B200带来2.25倍解码吞吐量提升⚠️厂商宣称。H100上，SGLang实现约16,200 tok/s，而vLLM约为12,500 tok/s，差距达29%⚠️厂商宣称。在Prefix-heavy场景（RAG、多轮对话），SGLang的领先优势扩大到6.4倍⚠️厂商宣称。

调度overhead是另一个关键差异：vLLM每步推理都需要Python层参与调度，而SGLang通过CUDA graph和算子overlap实现了接近零的调度开销，这在长序列场景下累积效应显著。

2.3 DeepSeek V4/MoE优化：SGLang的杀手级场景

DeepSeek V3/V4这类MoE（Mixture of Experts）模型对推理框架提出了特殊挑战：专家并行（Expert Parallelism）与prefill-decode分离（disaggregation）是释放MoE潜力的关键。

SGLang在96块H100集群上实现了52,300 input tok/s和22,300 output tok/s的吞吐⚠️厂商宣称。更重要的是Multi-Token Prediction（MTP）支持，通过一次预测多个token将decode速度提升1.8倍⚠️厂商宣称。

DeepEP在SGLang中实现了差异化优化：normal mode用于prefill阶段（高吞吐优先），low-latency mode用于decode阶段（延迟优先）。这种分场景优化的策略，使SGLang成为DeepSeek V3/V4的官方首选推理框架。

2.4 xgrammar：结构化输出的技术意义

在Agent时代，结构化输出（非连续文本）的重要性急剧上升——工具调用、代码生成、多步骤推理都需要精确的JSON/代码结构。

SGLang原生集成xgrammar，在JSON结构化输出场景下比其他开源方案快10倍⚠️厂商宣称。这不是简单的性能优化，而是对推理引擎架构的根本性重构：结构化约束需要内置于token采样过程，而非事后解析。

三、三巨头战略拆解：各怀心思的联合投资

3.1 NVIDIA：巩固生态护城河

NVIDIA的逻辑最直接：SGLang最大化GPU利用率，意味着高端产品ROI提升，进而强化下一代GPU的销售意愿。投资SGLang不会动摇NVIDIA在CUDA生态中的主导地位，反而通过确保推理框架对NVIDIA硬件的"first-class support"来加固护城河。

推理效率每提升1%，就意味着同等硬件能服务更多用户——这对NVIDIA的高端H100/B200销售是直接利好。

3.2 AMD：打破CUDA依赖的关键跳板

AMD的处境完全不同。ROCm生态的成熟度与CUDA仍有差距，而SGLang的开源+跨平台特性为AMD提供了"曲线救国"的机会——如果推理框架本身足够好用、足够中立，硬件选择就可能从CUDA锁定转向性价比考量。

AMD Instinct系列需要这样的差异化定位：在某些工作负载上证明自己比NVIDIA更有性价比。

3.3 Intel：证明Xe架构的展示舞台

Intel CEO陈立武的个人天使投资行为本身就说明了问题——这是战略层面的背书，而非普通的财务投资。Intel Xe GPU需要一个杀手级应用来证明自己，而SGLang的开源特性使得Intel可以在不依赖商业伙伴的情况下展示硬件能力。

四、对推理引擎格局的影响

当前推理引擎市场呈现明显的"vLLM + SGLang"双寡头格局：

vLLM：生态最大，GitHub贡献者是SGLang的3倍，PyPI下载量领先
SGLang：增速最快，27K+ stars，40万GPU部署，用户包括Google、Microsoft、Oracle

这笔投资将加速市场分化：对延迟不敏感、追求吞吐的云端大规模推理将向SGLang集中；而需要极致定制化、依赖vLLM成熟生态的场景将继续使用vLLM。

更深远的影响在于：芯片厂商开始将推理引擎视为"硬件能力放大器"——投资推理框架，本质上是在投资自家芯片的市场竞争力。

五、薄弱点分析：繁荣背后的隐忧

5.1 传统风险：推理引擎碎片化

每家芯片厂商都在推自己的推理优化方案，每家AI实验室都在选边站，推理引擎正在重蹈AI框架的碎片化覆辙。开发者面临的选择成本急剧上升，跨平台迁移的难度也在累积。

5.2 AI攻击/风险：开源特性的双刃剑

SGLang的开源+跨平台特性是一把双刃剑。一方面，它推动了推理技术的普惠；另一方面，这类框架也可能被用于规避芯片出口限制——通过在合规地区部署推理引擎，优化对受限芯片的利用效率。⚠️高置信度推测

5.3 防御方向：推理层标准化的战略意义

推理层的标准化对AI安全有积极意义：当推理引擎足够成熟、足够中立，AI系统行为的可预测性和可审计性都会提升。结构化输出、推理过程追踪、安全约束内置——这些能力在开放的、社区驱动的框架中更容易实现。

六、预判：接下来会发生什么

短期（3个月）

DeepSeek V4发布时将SGLang列为官方推理引擎（概率：极高）⚠️高置信度
vLLM社区出现分流，部分核心开发者可能转向SGLang
NVIDIA内部加速SGLang-first的GPU优化路线图

中期（6个月）

AMD Instinct + ROCm + SGLang组合在推理市场形成有竞争力的替代方案
NVIDIA GPU + SGLang的生态闭环更加紧密，可能出现SGLang的NVIDIA专属优化
Intel Xe GPU通过SGLang获得首个大规模生产级部署案例

长期（12个月）

推理引擎层成为芯片厂商的新护城河——谁能控制推理优化，谁就能影响模型部署的选择
开源中立性面临考验：SGLang能否在三家芯片厂商投资后保持独立立场？
推理层标准化提上日程，可能是芯片厂商主动推动，也可能是监管力量介入

关键数据一览

数据点	数值	标注
投资总额	1.55亿美元	✅已验证
公司估值	4亿美元	✅已验证
SGLang GitHub stars	27K+	✅已验证
GPU部署规模	40万+	⚠️厂商宣称
DeepSeek V3推理提升	3.1x	⚠️高置信度
B200解码吞吐提升	2.25x	⚠️厂商宣称
JSON结构化输出提升	10x	⚠️厂商宣称
H100吞吐	16,200 tok/s	⚠️厂商宣称
Prefix-heavy场景提升	6.4x	⚠️厂商宣称

🎯

战略重要性

推理层正在成为AI基础设施的新战场。三家芯片巨头罕见联合投资，表明推理引擎不再只是幕后工具，而是影响芯片采购决策的关键因素。这对芯片厂商、模型开发商和企业AI部署者都有深远影响——谁能掌控推理优化，谁就能在AI价值链中占据更有利的位置。

⚡ PRO

决策选择

对芯片厂商：评估现有推理优化策略，考虑SGLang合作或投资布局。对模型开发商：评估SGLang在MoE/长上下文场景的适配性，DeepSeek V4发布时优先集成。对企业AI部署者：关注推理引擎选择对TCO的影响，特别是在RAG/Agent场景。

🔮 PRO

预测验证

短期（3个月）：DeepSeek V4将SGLang列为官方推理引擎；vLLM社区出现分流。中期（6个月）：AMD Instinct加ROCm加SGLang组合形成竞争替代；NVIDIA加SGLang生态闭环更紧。长期（12个月）：推理引擎层成为芯片护城河；开源中立性面临考验；标准化提上日程。

三巨头联手投SGLang——推理层成为AI基础设施新战场