NVIDIA力推World-Action模型:机器人控制权从语言转向视频基础模型
内容摘要
核心要点
NVIDIA在2026年6月发布的博客中,系统阐述了World-Action Model(WAM)的崛起。核心论点:VLM-based VLA(如Pi-0、GR00T N1)遭遇语言-动作接地鸿沟(grounding gap),即模型理解语言但无法可靠转化为物理动作。WAM通过使用预训练视频骨干(如Cosmos、Wan、Veo)作为起点,同时预测未来视频帧和动作序列,将控制点从语言语义转移到物理动态预测。
博客详细分类了WAM的三种范式:逆动力学(从当前和未来观测推断动作)、联合预测(同时预测未来观测和动作)、仅表示(用视频模型特征条件化动作)。架构上提出Mixture-of-Transformers (MoT) 和Diffusion Transformer (DiT) 作为关键组件。NVIDIA自家的DreamZero和Cosmos Policy被列为代表性WAM。
NVIDIA指出,WAM的兴起得益于视频生成模型(如Wan 2.2-5B、Cosmos-Predict)的成熟,这些模型已具备强大的场景动态先验。但博客也承认WAM面临推理成本高和速度慢的挑战,视频生成需要大量FLOPs(如Veo 3.1需10^19 FLOPs/帧)。
重要性说明
NVIDIA此举表面是技术路线探索,实则为合围Google DeepMind和开源VLA阵营。Google的Gemini Robotics和开源OpenVLA均基于VLM骨干,NVIDIA通过推广WAM,试图将机器人控制权从语言模型生态(VLM)转移到其自有的视频生成生态(Cosmos、Wan),从而锁定用户对NVIDIA GPU和视频模型推理框架的依赖。
隐性锁定陷阱:一旦用户采用WAM路线,就必须使用NVIDIA的Cosmos或Wan作为视频骨干,而这些模型高度依赖NVIDIA的H100/B200 GPU和TensorRT-LLM优化栈。用户将失去架构弹性,无法轻易切换到其他视频模型(如Veo或开源LTX-Video),因为WAM的Mixture-of-Transformers架构通常与特定视频VAE(如Wan 2.2的4×16×16压缩)深度耦合,迁移成本极高。
故意隐瞒的工程短板:博客对推理延迟和能耗轻描淡写。WAM在实时机器人控制场景中面临致命瓶颈:视频生成需要数十ZFLOPs,即使使用DiT加速,单次推理仍需数秒,远无法满足高频控制(如1kHz关节控制)。此外,视频骨干的尾部延迟在分布式训练中会放大,导致PFC/ECN拥塞控制问题,影响RoCEv2网络效率。NVIDIA未提及WAM在真实物理机器人上的端到端延迟数据,这是关键性能陷阱。
PRO 决策建议
【厂商(竞争对手)】Google DeepMind和开源VLA阵营应立即行动:
- 强化VLM-based VLA的实时性优化:通过模型蒸馏和动作token量化(如FAST/BEAST)降低推理延迟,证明VLA在真实机器人上可达到亚10ms控制周期。
- 开放视频骨干兼容性:推动OpenVLA支持多种视频骨干(如Veo、LTX-Video),打破NVIDIA对Cosmos/Wan的锁定。
- 发布端到端延迟基准:用RoboArena和CALVIN等基准对比WAM与VLA的实际推理时间和成功率,揭露WAM的实时性短板。
【企业(CIO/架构师)】采用零信任审计:
- 要求厂商提供WAM端到端延迟数据:包括视频骨干推理时间、动作解码延迟、网络传输延迟。拒绝接受仅报告FLOPs而不报告wall-clock时间的厂商。
- 评估跨平台可移植性:测试WAM模型是否能在非NVIDIA GPU(如AMD MI300X)或边缘设备上运行,避免被单一硬件锁定。
- 优先选择混合架构:关注同时支持VLA和WAM的框架(如GR00T),保持架构弹性,避免过早押注单一范式。
【投资者】穿透公关辞令:
- 关注WAM的推理成本拐点:若视频生成模型无法在3年内将单帧推理成本降至1毫秒/1W,WAM将仅限离线仿真场景,无法替代VLA。
- 警惕NVIDIA的生态锁定风险:WAM的成功将强化NVIDIA在AI Infra的垄断,但投资者应对比开源视频模型(如Wan、LTX-Video) 的生态进展,评估供应商集中度风险。
- 做空WAM概念股:若发现关键延迟指标未改善,可预期WAM hype消退,资金回流VLA路线。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)