A
AMD
2026-06-17
Product Launch 影响: Important 置信: 85%

AMD MLPerf 6.0:MI350系列用MXFP4实现3.5倍代际提升,多节点训练首秀

内容摘要

AMD在MLPerf Training 6.0中提交了最全面的结果,包括首次多节点训练(FLUX.1在512 GPU上)和MXFP4训练配方。MI355X相比MI300X在Llama 2-70B上实现3.5倍性能提升,且与NVIDIA B200的差距缩小至5%以内。10家生态伙伴验证了可复现性。

核心要点

AMD在MLPerf Training 6.0中展示了三大技术里程碑:

  • MXFP4训练配方首次用于LLM基准(Llama 2-70B和Llama 3.1-8B),基于CDNA 4架构MI355X GPU(3nm、1850亿晶体管、288GB HBM3E)提供高达10 PF MXFP4性能,单GPU支持520亿参数模型。
  • AMD Primus软件首次在MLPerf中使用,配合ROCm优化,实现MI355X相比MI300X在Llama 2-70B上3.5倍提升,且MI350系列内部7个月内又有16-19%的持续优化。
  • 首次多节点提交:FLUX.1在64节点(512 GPU)上运行,由Oracle Cloud Infrastructure支持,匹配NVIDIA最大规模提交。10家伙伴(Dell、HPE、Cisco、Supermicro等)结果与官方提交差距<6%。

重要性说明

AMD此次MLPerf提交表面是性能突破,实则是针对NVIDIA的合围战略:通过MXFP4训练配方和Primus软件栈,试图在训练生态中建立类似NVIDIA CUDA的软件锁定。Primus作为AMD的分布式训练框架,将逐步剥夺用户对开源框架(如PyTorch FSDP)的灵活选择权,迫使客户适配AMD专有API。

但AMD刻意淡化了MXFP4训练的实际精度风险——低精度训练在收敛性和模型质量上仍存在不确定性,尤其对于520B参数级别模型,FP4的尾数位宽不足可能导致梯度噪声放大。此外,多节点训练中InfiniBand网络依赖未提及:AMD Instinct GPU目前仍主要依赖InfiniBand实现节点间通信,而NVIDIA已通过NVLink+NVSwitch实现更高带宽低延迟的域内互联。AMD的UBB8节点仅支持标准以太网或InfiniBand,在尾部延迟拥塞控制(PFC/ECN)方面存在固有限制,大规模训练时通信效率可能成为瓶颈。

最后,AMD引用10家伙伴结果<6%差异,但未披露这些伙伴是否使用了完全一致的Primus版本ROCm配置,这为未来版本碎片化埋下隐患——用户一旦采用AMD方案,可能被锁定在特定软件栈版本,难以跨集群复现性能。

PRO 决策建议

【厂商】NVIDIA应立即反击:在MLPerf下一轮提交中展示NVFP4NVLink 5.0的联合优势,强调域内互联带宽(900GB/s vs AMD的InfiniBand 400Gb/s)对大规模训练尾部延迟的改善。同时,通过CUDA 12.xFP4原生支持开源FSDP2对标Primus,瓦解AMD的软件锁定企图。

【企业】CIO/架构师应进行零信任技术审计:要求AMD提供MXFP4训练在收敛误差和模型质量上的独立第三方验证,并测试多节点训练中InfiniBand vs NVLink的实际吞吐量差异。评估Primus软件栈的版本兼容性跨云可移植性,避免被单一供应商锁定。建议保留PyTorch FSDP作为备选方案。

【投资者】看穿公关辞令:AMD的MLPerf成绩虽亮眼,但软件生态成熟度网络互联能力仍是长期短板。关注AMD是否在InfiniBand替代方案(如以太网RoCEv2)上取得突破,以及Primus能否获得PyTorch社区主流支持。短期股价可能受提振,但长期需警惕NVIDIA的B300/B400反击导致的份额逆转。

来源: blog
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)