这项动态的影响程度如何？

该情报被评估为对企业具有重大影响，建议技术决策者关注。

NVIDIA 2026-06-15

Architecture Shift 影响: Major 置信: 85%

NVIDIA力推World-Action模型：机器人控制权从语言转向视频基础模型

Q: 为什么NVIDIA的这项动态对企业重要？

NVIDIA此举表面是技术路线探索，实则为**合围Google DeepMind和开源VLA阵营**。Google的**Gemini Robotics**和开源**OpenVLA**均基于VLM骨干，NVIDIA通过推广WAM，试图将机器人控制权从语言模型生态（VLM）转移到其自有的视频生成生态（**Cosmos**、**Wan**），从而**锁定用户对NVIDIA GPU和视频模型推理框架的依赖**。 隐性锁定陷阱：一旦用户采用WAM路线，就必须使用NVIDIA的**Cosmos**或**Wan**作为视频骨干，而这些模型高度依赖NVIDIA的**H100/B200 GPU**和**TensorRT-LLM**优化栈。用户将失去架构弹性，无法轻易切换到其他视频模型（如**Veo**或开源**LTX-Video**），因为WAM的**Mixture-of-Transformers**架构通常与特定视频VAE（如**Wan 2.2的4×16×16压缩**）深度耦合，迁移成本极高。 故意隐瞒的工程短板：博客对**推理延迟和能耗**轻描淡写。WAM在实时机器人控制场景中面临致命瓶颈：视频生成需要**数十ZFLOPs**，即使使用**DiT**加速，单次推理仍需数秒，远无法满足高频控制（如**1kHz关节控制**）。此外，**视频骨干的尾部延迟**在分布式训练中会放大，导致**PFC/ECN拥塞控制**问题，影响**RoCEv2**网络效率。NVIDIA未提及WAM在真实物理机器人上的**端到端延迟**数据，这是关键性能陷阱。

内容摘要

NVIDIA发表深度技术博客，提出World-Action Model（WAM）作为VLM-based VLA的替代路线。WAM利用预训练视频/世界模型骨干，同时预测未来状态和机器人动作，旨在克服VLA的语言-动作接地鸿沟。该范式可能重塑机器人基础模型训练格局，但面临推理成本和实时性挑战。

核心要点

NVIDIA在2026年6月发布的博客中，系统阐述了World-Action Model（WAM）的崛起。核心论点：VLM-based VLA（如Pi-0、GR00T N1）遭遇语言-动作接地鸿沟（grounding gap），即模型理解语言但无法可靠转化为物理动作。WAM通过使用预训练视频骨干（如Cosmos、Wan、Veo）作为起点，同时预测未来视频帧和动作序列，将控制点从语言语义转移到物理动态预测。

博客详细分类了WAM的三种范式：逆动力学（从当前和未来观测推断动作）、联合预测（同时预测未来观测和动作）、仅表示（用视频模型特征条件化动作）。架构上提出Mixture-of-Transformers (MoT) 和Diffusion Transformer (DiT) 作为关键组件。NVIDIA自家的DreamZero和Cosmos Policy被列为代表性WAM。

NVIDIA指出，WAM的兴起得益于视频生成模型（如Wan 2.2-5B、Cosmos-Predict）的成熟，这些模型已具备强大的场景动态先验。但博客也承认WAM面临推理成本高和速度慢的挑战，视频生成需要大量FLOPs（如Veo 3.1需10^19 FLOPs/帧）。

重要性说明

NVIDIA此举表面是技术路线探索，实则为合围Google DeepMind和开源VLA阵营。Google的Gemini Robotics和开源OpenVLA均基于VLM骨干，NVIDIA通过推广WAM，试图将机器人控制权从语言模型生态（VLM）转移到其自有的视频生成生态（Cosmos、Wan），从而锁定用户对NVIDIA GPU和视频模型推理框架的依赖。

隐性锁定陷阱：一旦用户采用WAM路线，就必须使用NVIDIA的Cosmos或Wan作为视频骨干，而这些模型高度依赖NVIDIA的H100/B200 GPU和TensorRT-LLM优化栈。用户将失去架构弹性，无法轻易切换到其他视频模型（如Veo或开源LTX-Video），因为WAM的Mixture-of-Transformers架构通常与特定视频VAE（如Wan 2.2的4×16×16压缩）深度耦合，迁移成本极高。

故意隐瞒的工程短板：博客对推理延迟和能耗轻描淡写。WAM在实时机器人控制场景中面临致命瓶颈：视频生成需要数十ZFLOPs，即使使用DiT加速，单次推理仍需数秒，远无法满足高频控制（如1kHz关节控制）。此外，视频骨干的尾部延迟在分布式训练中会放大，导致PFC/ECN拥塞控制问题，影响RoCEv2网络效率。NVIDIA未提及WAM在真实物理机器人上的端到端延迟数据，这是关键性能陷阱。

PRO 决策建议

【厂商（竞争对手）】Google DeepMind和开源VLA阵营应立即行动：

强化VLM-based VLA的实时性优化：通过模型蒸馏和动作token量化（如FAST/BEAST）降低推理延迟，证明VLA在真实机器人上可达到亚10ms控制周期。
开放视频骨干兼容性：推动OpenVLA支持多种视频骨干（如Veo、LTX-Video），打破NVIDIA对Cosmos/Wan的锁定。
发布端到端延迟基准：用RoboArena和CALVIN等基准对比WAM与VLA的实际推理时间和成功率，揭露WAM的实时性短板。

【企业（CIO/架构师）】采用零信任审计：

要求厂商提供WAM端到端延迟数据：包括视频骨干推理时间、动作解码延迟、网络传输延迟。拒绝接受仅报告FLOPs而不报告wall-clock时间的厂商。
评估跨平台可移植性：测试WAM模型是否能在非NVIDIA GPU（如AMD MI300X）或边缘设备上运行，避免被单一硬件锁定。
优先选择混合架构：关注同时支持VLA和WAM的框架（如GR00T），保持架构弹性，避免过早押注单一范式。

【投资者】穿透公关辞令：

关注WAM的推理成本拐点：若视频生成模型无法在3年内将单帧推理成本降至1毫秒/1W，WAM将仅限离线仿真场景，无法替代VLA。
警惕NVIDIA的生态锁定风险：WAM的成功将强化NVIDIA在AI Infra的垄断，但投资者应对比开源视频模型（如Wan、LTX-Video） 的生态进展，评估供应商集中度风险。
做空WAM概念股：若发现关键延迟指标未改善，可预期WAM hype消退，资金回流VLA路线。

来源： T

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)