NVIDIA联手Google DeepMind推出并行文本生成模型,吞吐量突破1000 tokens/sec
内容摘要
核心要点
NVIDIA与Google DeepMind联合优化了DiffusionGemma,这是一款基于扩散去噪的文本生成模型,采用Gemma 4 26B A4B MoE架构,总参数量25.2B,激活参数3.8B,支持最长256K token上下文。
与传统自回归模型逐个生成token不同,DiffusionGemma每步并行生成256个token,在单张NVIDIA H100 Tensor Core GPU上达到1,000 tokens/sec,在DGX Spark(GB10 Superchip)上达150 tok/s,在DGX Station(GB300 Ultra)上达2,000 tok/s。这直接转化为更低的推理成本和更高的并发能力。
模型支持BF16和NVFP4量化格式,通过Hugging Face、NVIDIA NIM(容器化微服务,提供OpenAI兼容API)和NVIDIA NeMo AutoModel(支持直接从HuggingFace checkpoint微调)进行部署。NVIDIA强调Day 0支持,从原型到生产无缝过渡。
重要性说明
NVIDIA此举表面上是合作优化,实则在合围自回归推理生态(如vLLM、TGI),并通过NIM和NeMo构建新的锁定层。用户一旦采用DiffusionGemma,推理栈将深度绑定NVIDIA的专有容器(NIM)和微调框架(NeMo),难以迁移至AMD或Intel平台。
原文刻意淡化的物理限制包括:NVFP4量化仅能在NVIDIA硬件上高效运行(依赖Tensor Core的FP4支持),且并行去噪在长上下文(256K)下可能遭遇显存带宽瓶颈——DGX Spark的128GB统一内存虽大,但GB10的互联带宽有限,实际吞吐量可能远低于标称值。此外,扩散模型在文本生成中的尾部延迟特性尚未被评估:多步去噪(通常需要50-100步)可能引入比自回归更长的端到端延迟,尤其在低并发场景下。
PRO 决策建议
【厂商(AMD、Intel、自研芯片云厂商)】立即在ROCm/OpenVINO上对标DiffusionGemma的并行推理性能,并联合HuggingFace提供独立于NIM的容器化部署方案,强调跨平台可移植性。攻击NVIDIA的NVFP4锁定:推广FP8/INT8量化在通用硬件上的等效吞吐。
【企业CIO与架构师】进行零信任审计:要求NVIDIA提供独立基准测试(非NVIDIA实验室环境),覆盖多步去噪的尾部延迟和并发扩展性。评估从NIM迁移至标准vLLM或TGI的开销,避免被NeMo AutoModel的专有检查点格式锁定。优先选择HuggingFace原生部署路径,保留架构弹性。
【投资者】看穿公关辞令:DiffusionGemma的并行生成是真实技术突破,但NVIDIA的NIM/NeMo锁定是长期利润来源。关注AMD MI400和Intel Falcon Shores能否在2027年前提供等效的扩散模型优化栈。若NVIDIA成功将扩散推理标准化为“NIM-only”,将强化其供应商集中度风险,但短期利好股价。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)