这项动态的影响程度如何？

该情报被评估为对企业具有重要影响，建议技术决策者关注。

AMD 2026-06-17

Product Launch 影响: Important 置信: 85%

AMD MLPerf 6.0：MI350系列用MXFP4实现3.5倍代际提升，多节点训练首秀

Q: 为什么AMD的这项动态对企业重要？

AMD此次MLPerf提交表面是性能突破，实则是针对NVIDIA的**合围战略**：通过MXFP4训练配方和Primus软件栈，试图在训练生态中建立类似NVIDIA CUDA的**软件锁定**。Primus作为AMD的分布式训练框架，将逐步剥夺用户对开源框架（如PyTorch FSDP）的灵活选择权，迫使客户适配AMD专有API。 但AMD刻意淡化了**MXFP4训练的实际精度风险**——低精度训练在收敛性和模型质量上仍存在不确定性，尤其对于520B参数级别模型，FP4的尾数位宽不足可能导致梯度噪声放大。此外，多节点训练中**InfiniBand网络依赖**未提及：AMD Instinct GPU目前仍主要依赖InfiniBand实现节点间通信，而NVIDIA已通过NVLink+NVSwitch实现更高带宽低延迟的域内互联。AMD的UBB8节点仅支持标准以太网或InfiniBand，在**尾部延迟**和**拥塞控制**（PFC/ECN）方面存在固有限制，大规模训练时通信效率可能成为瓶颈。 最后，AMD引用10家伙伴结果

内容摘要

AMD在MLPerf Training 6.0中提交了最全面的结果，包括首次多节点训练（FLUX.1在512 GPU上）和MXFP4训练配方。MI355X相比MI300X在Llama 2-70B上实现3.5倍性能提升，且与NVIDIA B200的差距缩小至5%以内。10家生态伙伴验证了可复现性。

核心要点

AMD在MLPerf Training 6.0中展示了三大技术里程碑：

MXFP4训练配方首次用于LLM基准（Llama 2-70B和Llama 3.1-8B），基于CDNA 4架构的MI355X GPU（3nm、1850亿晶体管、288GB HBM3E）提供高达10 PF MXFP4性能，单GPU支持520亿参数模型。
AMD Primus软件首次在MLPerf中使用，配合ROCm优化，实现MI355X相比MI300X在Llama 2-70B上3.5倍提升，且MI350系列内部7个月内又有16-19%的持续优化。
首次多节点提交：FLUX.1在64节点（512 GPU）上运行，由Oracle Cloud Infrastructure支持，匹配NVIDIA最大规模提交。10家伙伴（Dell、HPE、Cisco、Supermicro等）结果与官方提交差距<6%。

重要性说明

AMD此次MLPerf提交表面是性能突破，实则是针对NVIDIA的合围战略：通过MXFP4训练配方和Primus软件栈，试图在训练生态中建立类似NVIDIA CUDA的软件锁定。Primus作为AMD的分布式训练框架，将逐步剥夺用户对开源框架（如PyTorch FSDP）的灵活选择权，迫使客户适配AMD专有API。

但AMD刻意淡化了MXFP4训练的实际精度风险——低精度训练在收敛性和模型质量上仍存在不确定性，尤其对于520B参数级别模型，FP4的尾数位宽不足可能导致梯度噪声放大。此外，多节点训练中InfiniBand网络依赖未提及：AMD Instinct GPU目前仍主要依赖InfiniBand实现节点间通信，而NVIDIA已通过NVLink+NVSwitch实现更高带宽低延迟的域内互联。AMD的UBB8节点仅支持标准以太网或InfiniBand，在尾部延迟和拥塞控制（PFC/ECN）方面存在固有限制，大规模训练时通信效率可能成为瓶颈。

最后，AMD引用10家伙伴结果<6%差异，但未披露这些伙伴是否使用了完全一致的Primus版本和ROCm配置，这为未来版本碎片化埋下隐患——用户一旦采用AMD方案，可能被锁定在特定软件栈版本，难以跨集群复现性能。

PRO 决策建议

【厂商】NVIDIA应立即反击：在MLPerf下一轮提交中展示NVFP4与NVLink 5.0的联合优势，强调域内互联带宽（900GB/s vs AMD的InfiniBand 400Gb/s）对大规模训练尾部延迟的改善。同时，通过CUDA 12.x的FP4原生支持和开源FSDP2对标Primus，瓦解AMD的软件锁定企图。

【企业】CIO/架构师应进行零信任技术审计：要求AMD提供MXFP4训练在收敛误差和模型质量上的独立第三方验证，并测试多节点训练中InfiniBand vs NVLink的实际吞吐量差异。评估Primus软件栈的版本兼容性和跨云可移植性，避免被单一供应商锁定。建议保留PyTorch FSDP作为备选方案。

【投资者】看穿公关辞令：AMD的MLPerf成绩虽亮眼，但软件生态成熟度和网络互联能力仍是长期短板。关注AMD是否在InfiniBand替代方案（如以太网RoCEv2）上取得突破，以及Primus能否获得PyTorch社区主流支持。短期股价可能受提振，但长期需警惕NVIDIA的B300/B400反击导致的份额逆转。

来源： blog

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)