这项动态的影响程度如何？

该情报被评估为对企业具有重要影响，建议技术决策者关注。

NVIDIA 2026-06-11

Technology Integration 影响: Important 置信: 85%

NVIDIA联手Google DeepMind推出并行文本生成模型，吞吐量突破1000 tokens/sec

Q: 为什么NVIDIA的这项动态对企业重要？

NVIDIA此举表面上是合作优化，实则在**合围自回归推理生态**（如vLLM、TGI），并通过**NIM和NeMo**构建新的锁定层。用户一旦采用DiffusionGemma，推理栈将深度绑定NVIDIA的专有容器（NIM）和微调框架（NeMo），难以迁移至AMD或Intel平台。 原文刻意淡化的物理限制包括：**NVFP4量化**仅能在NVIDIA硬件上高效运行（依赖Tensor Core的FP4支持），且并行去噪在长上下文（256K）下可能遭遇**显存带宽瓶颈**——DGX Spark的128GB统一内存虽大，但GB10的互联带宽有限，实际吞吐量可能远低于标称值。此外，扩散模型在文本生成中的**尾部延迟**特性尚未被评估：多步去噪（通常需要50-100步）可能引入比自回归更长的端到端延迟，尤其在低并发场景下。

内容摘要

NVIDIA宣布与Google DeepMind合作优化DiffusionGemma，该模型基于扩散去噪实现每步并行生成256个token，在单个H100上达到1000 tokens/sec，并通过NIM和NeMo提供即用部署，显著降低推理成本和延迟。

核心要点

NVIDIA与Google DeepMind联合优化了DiffusionGemma，这是一款基于扩散去噪的文本生成模型，采用Gemma 4 26B A4B MoE架构，总参数量25.2B，激活参数3.8B，支持最长256K token上下文。

与传统自回归模型逐个生成token不同，DiffusionGemma每步并行生成256个token，在单张NVIDIA H100 Tensor Core GPU上达到1,000 tokens/sec，在DGX Spark（GB10 Superchip）上达150 tok/s，在DGX Station（GB300 Ultra）上达2,000 tok/s。这直接转化为更低的推理成本和更高的并发能力。

模型支持BF16和NVFP4量化格式，通过Hugging Face、NVIDIA NIM（容器化微服务，提供OpenAI兼容API）和NVIDIA NeMo AutoModel（支持直接从HuggingFace checkpoint微调）进行部署。NVIDIA强调Day 0支持，从原型到生产无缝过渡。

重要性说明

NVIDIA此举表面上是合作优化，实则在合围自回归推理生态（如vLLM、TGI），并通过NIM和NeMo构建新的锁定层。用户一旦采用DiffusionGemma，推理栈将深度绑定NVIDIA的专有容器（NIM）和微调框架（NeMo），难以迁移至AMD或Intel平台。

原文刻意淡化的物理限制包括：NVFP4量化仅能在NVIDIA硬件上高效运行（依赖Tensor Core的FP4支持），且并行去噪在长上下文（256K）下可能遭遇显存带宽瓶颈——DGX Spark的128GB统一内存虽大，但GB10的互联带宽有限，实际吞吐量可能远低于标称值。此外，扩散模型在文本生成中的尾部延迟特性尚未被评估：多步去噪（通常需要50-100步）可能引入比自回归更长的端到端延迟，尤其在低并发场景下。

PRO 决策建议

【厂商（AMD、Intel、自研芯片云厂商）】立即在ROCm/OpenVINO上对标DiffusionGemma的并行推理性能，并联合HuggingFace提供独立于NIM的容器化部署方案，强调跨平台可移植性。攻击NVIDIA的NVFP4锁定：推广FP8/INT8量化在通用硬件上的等效吞吐。

【企业CIO与架构师】进行零信任审计：要求NVIDIA提供独立基准测试（非NVIDIA实验室环境），覆盖多步去噪的尾部延迟和并发扩展性。评估从NIM迁移至标准vLLM或TGI的开销，避免被NeMo AutoModel的专有检查点格式锁定。优先选择HuggingFace原生部署路径，保留架构弹性。

【投资者】看穿公关辞令：DiffusionGemma的并行生成是真实技术突破，但NVIDIA的NIM/NeMo锁定是长期利润来源。关注AMD MI400和Intel Falcon Shores能否在2027年前提供等效的扩散模型优化栈。若NVIDIA成功将扩散推理标准化为“NIM-only”，将强化其供应商集中度风险，但短期利好股价。

来源： T

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)