NVIDIA开源DSX OS,定义AI工厂全栈运营软件层
内容摘要
核心要点
NVIDIA在其DSX平台中新增DSX OS软件层,旨在加速AI工厂部署与运营。
核心技术动作包括:1) 通过基于MQTT的DSX Exchange桥接IT与OT系统,使电网事件、热数据等设施信号对AI管理软件可见,并支持MCP服务器供AI Agent进行跨域操作。2) DSX MaxLPS将电力作为可编程资源进行动态策略管理,声称在固定功耗预算下可多运行40%的GPU。3) NVIDIA Infra Controller (NICo) 通过BlueField DPU和DOCA Platform Framework提供API驱动的裸金属生命周期管理与硬件强制的租户隔离。4) 配套组件包括用于运行时配置管理的NVIDIA AI Cluster Runtime (AICR)、用于GPU故障自动修复的NVSentinel,以及提供全局可见性的Fleet Intelligence。
该软件已获CoreWeave、Lambda、Red Hat等众多生态伙伴集成或采用。
重要性说明
(控制层转移型)NVIDIA正将AI基础设施的控制层从分散的硬件管理、独立设施运营和软件编排,系统性上移至由其定义的统一软件抽象层(DSX OS)。这不仅是产品迭代,更是战略卡位:谁定义了“AI工厂操作系统”,谁就掌握了从芯片到设施再到应用的全栈价值分配权。通过开源模块化组件,NVIDIA旨在加速生态采纳,使其技术栈成为事实标准,从而在全栈AI竞争中巩固其核心控制点,并重新划定基础设施软件市场的竞争边界。
PRO 决策建议
[Vendors] 竞争厂商(如AMD、Intel、主要云服务商)需紧急评估DSX OS对自身全栈软件战略的冲击,必须加速推进自有或联盟性质的AI基础设施协调层开发,或制定明确的兼容/集成策略,以避免在NVIDIA主导的生态演进中被边缘化。
[Enterprises] 计划构建或运营大规模AI基础设施的企业技术决策者,应深入研究DSX OS组件(特别是DSX Exchange和MaxLPS)的IT/OT融合与能效优化能力,评估其对降低TCO和提升运营韧性的潜在价值,但同时需制定多云/多厂商架构策略,以管理对单一技术栈深度绑定的长期风险。
[Investors] 需重新审视基础设施软件、数据中心自动化及能源管理领域的投资标的,关注那些能够与DSX OS生态互补(如专业OT软件集成)或提供替代性抽象层的公司,DSX OS可能催生新的集成服务商机会,同时对传统IT管理软件商构成挑战。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)