这项动态的影响程度如何？

该情报被评估为对企业具有重要影响，建议技术决策者关注。

NVIDIA 2026-06-11

Vendor Strategy 影响: Important 置信: 85%

NVIDIA借DiffusionGemma并行生成，将本地AI推理控制权锁定于自家GPU

Q: 为什么NVIDIA的这项动态对企业重要？

NVIDIA此举表面是加速开源模型，实质是对**AMD**、**Intel**等竞争对手的本地AI硬件进行**防御性合围**。通过将扩散模型的计算特性与自家Tensor Core深度绑定，NVIDIA试图**锁定用户对高端GPU的依赖**——任何试图用非NVIDIA硬件运行DiffusionGemma的用户，都将面临显著性能降级，因为竞争对手的GPU架构（如AMD CDNA）在纯计算密集型负载上难以匹敌NVIDIA的矩阵乘法效率。 更深的陷阱在于**隐性成本转移**：虽然模型免费且本地运行无按token费用，但用户必须购买**RTX 5090**（约$2000）或**DGX Spark**（约$3000+）才能获得有意义的性能。对于低频使用场景，总拥有成本远高于云API按需付费。NVIDIA刻意淡化**硬件折旧**和**模型质量风险**——扩散文本生成在长文本连贯性上可能不如自回归模型，但原文未提及任何质量对比数据。 此外，**256 tokens并行生成**对显存容量提出苛刻要求：**DGX Spark**的128GB统一内存勉强够用，而普通RTX 5090（32GB GDDR7）在更大批次或更长序列下极易溢出，导致实际吞吐量骤降。NVIDIA通过将模型限制在高端硬件，人为制造了**性能分层**，迫使开发者升级至DGX系列。

内容摘要

NVIDIA优化Google DeepMind的DiffusionGemma开源模型，该模型通过并行生成256 tokens（非逐token）实现4倍加速。在H100上达1000 tokens/sec，DGX Spark上150 tokens/sec，完全本地运行，无云成本。此举强化了NVIDIA GPU在计算密集型本地AI推理中的核心地位。

核心要点

Google DeepMind发布DiffusionGemma，一种基于Gemma 4 26B MoE架构的扩散文本生成模型（激活仅3.8B参数），在NVIDIA RTX PRO、DGX Spark、GeForce RTX及DGX Station上优化运行。

核心创新：模型不再逐token自回归生成，而是每步并行去噪256 tokens，将传统内存受限问题转化为计算受限问题，完美匹配NVIDIA Tensor Cores和CUDA软件栈。性能数据：单张H100达1000 tokens/sec，DGX Spark（GB10 Grace Blackwell Superchip，128GB统一内存）达150 tokens/sec，DGX Station（748GB连贯内存）达800 tokens/sec，相比等效自回归模型快约4倍。

开源许可：Apache 2.0，支持Hugging Face Transformers、vLLM、Unsloth及NeMo微调，提供DGX Spark一键部署剧本。NVIDIA强调该模型适合单用户低延迟场景，如交互式聊天、智能体循环、本地助手。

重要性说明

NVIDIA此举表面是加速开源模型，实质是对AMD、Intel等竞争对手的本地AI硬件进行防御性合围。通过将扩散模型的计算特性与自家Tensor Core深度绑定，NVIDIA试图锁定用户对高端GPU的依赖——任何试图用非NVIDIA硬件运行DiffusionGemma的用户，都将面临显著性能降级，因为竞争对手的GPU架构（如AMD CDNA）在纯计算密集型负载上难以匹敌NVIDIA的矩阵乘法效率。

更深的陷阱在于隐性成本转移：虽然模型免费且本地运行无按token费用，但用户必须购买RTX 5090（约$2000）或DGX Spark（约$3000+）才能获得有意义的性能。对于低频使用场景，总拥有成本远高于云API按需付费。NVIDIA刻意淡化硬件折旧和模型质量风险——扩散文本生成在长文本连贯性上可能不如自回归模型，但原文未提及任何质量对比数据。

此外，256 tokens并行生成对显存容量提出苛刻要求：DGX Spark的128GB统一内存勉强够用，而普通RTX 5090（32GB GDDR7）在更大批次或更长序列下极易溢出，导致实际吞吐量骤降。NVIDIA通过将模型限制在高端硬件，人为制造了性能分层，迫使开发者升级至DGX系列。

PRO 决策建议

【厂商（竞争对手）】
AMD与Intel应立即启动对DiffusionGemma的硬件适配，并公开对比自家GPU（如AMD Instinct MI300X、Intel Gaudi 3）在运行该模型时的性能与能效比，强调开放生态与更低TCO。同时，联合Google DeepMind推广非NVIDIA优化版本，利用ROCm或OpenVINO打破CUDA独占。

【企业】
CIO与架构师需进行零信任技术审计：首先，独立测试DiffusionGemma在非NVIDIA硬件（如AMD、Intel）上的实际延迟与吞吐，避免被NVIDIA的基准数据误导。其次，评估硬件总拥有成本：对于开发测试场景，云API按需付费可能更经济；对于生产部署，需考虑硬件折旧与模型更新周期。最后，警惕供应商锁定：虽然模型开源，但NVIDIA通过优化和工具链（NeMo、vLLM）隐性绑定用户，应预留跨平台迁移路径。

【投资者】
看穿公关辞令：NVIDIA此举本质是提高硬件替换成本，通过模型优化强化GPU在本地AI的护城河。短期利好NVIDIA高端GPU销售（DGX Spark、RTX PRO），但长期需关注开源社区是否出现多硬件适配版本，以及AMD/Intel的追赶速度。投资决策应基于NVIDIA能否持续通过模型级优化维持性能领先，而非一次性公关事件。

来源： NVIDIA新闻中心

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)