AMD携手戴尔与剑桥大学,以开放ROCm生态撬动英国主权AI算力基建
内容摘要
核心要点
AMD、戴尔与剑桥大学联合宣布建立英国主权AI创新实验室(SAIL),这是英国政府推动主权AI能力的关键举措。该实验室将依托剑桥大学研究计算服务,部署基于第五代AMD EPYC处理器和AMD Instinct MI355X GPU加速器的Zenith AI超级计算机,以及用于聚变能源研究的Sunrise系统(由英国原子能管理局UKAEA运营)。核心目标是通过AMD ROCm开源软件栈和云原生技术,构建开放、可互操作的AI基础设施,涵盖AI训练与推理、科学基础模型、模拟辅助AI工作流、可信研究环境及安全公共部门AI服务。
该实验室是英国AI研究资源(AIRR)的扩展,旨在加速科学发现、医疗研究、气候建模、材料科学、工程仿真及聚变能源等领域的AI应用。AMD强调,这是对NVIDIA CUDA生态的直接挑战,通过提供灵活性和长期选择来吸引政府和研究机构。SAIL将与Zenith和Sunrise协同工作,形成英国国家AI基础设施生态。
重要性说明
表面是主权AI合作,实则是AMD对NVIDIA CUDA生态的精准围剿。通过绑定英国国家级项目,AMD试图将ROCm塑造为“主权AI标配”软件栈,利用政府“技术主权”需求,诱导用户从NVIDIA专有平台迁移。其隐性锁定在于:一旦科研机构在ROCm上开发模型和工作流,迁移成本将指数级上升,形成新的软件锁定,只是锁主从CUDA换成了ROCm。
AMD刻意淡化了ROCm生态成熟度的短板:与CUDA相比,ROCm在主流AI框架(如PyTorch、TensorFlow)的优化深度、第三方库支持、以及大规模分布式训练中的通信库性能(如NCCL vs RCCL)仍有显著差距。MI355X GPU虽在纸面算力上对标NVIDIA H100/B200,但在实际大模型训练吞吐量、尾部延迟和多卡互联带宽(Infinity Fabric vs NVLink)上存在物理限制。此外,SAIL合作中的Dell基础设施并非独家,但AMD强调“开放”却未提及其他GPU选项(如Intel Gaudi),暗示了硬件锁定风险。
PRO 决策建议
【厂商】NVIDIA应立即反击,通过强化主权AI合作伙伴计划,与英国政府直接签署CUDA生态深度绑定协议,提供更优的TCO模型和本地化支持。同时,加速开源替代方案(如Triton)的推广,削弱ROCm的“开放”标签优势。Intel应联合ARM等其他架构,推出主权AI白盒方案,强调硬件多样性,避免被AMD-Dell联盟锁定。
【企业】英国研究机构和政府部门必须进行零信任技术审计:要求AMD提供ROCm与CUDA的详细基准对比(包括大模型训练吞吐量、多卡扩展效率、推理延迟),并评估迁移成本。建议采用双重软件栈策略(同时支持ROCm和CUDA),避免单一供应商锁定。同时,关注Infinity Fabric vs NVLink的实际带宽瓶颈,确保大规模训练任务不因互联受限。
【投资者】看穿AMD的公关辞令:SAIL本质是国家级补贴下的生态抢夺战,短期利好AMD服务器CPU和GPU出货量,但长期面临ROCm生态碎片化和用户迁移阻力。需警惕政府项目依赖风险——一旦政策转向,订单可能萎缩。建议对比NVIDIA的CUDA护城河与AMD的开放策略的实际渗透率,关注MI355X在独立基准测试中的表现。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)