A
AMD
2026-05-06
Architecture Shift 影响: Major 强度: High 置信: 85%

AMD联合OpenAI发布下一代AI训练网络传输协议MRC

内容摘要

AMD联合OpenAI、微软等行业领导者发布Multipath Reliable Connection(MRC)协议规范,旨在解决RoCEv2在超大规模AI训练集群中的性能瓶颈。该协议通过智能包喷洒、选择性重传和网络信号拥塞控制等机制,提升网络带宽利用率和训练任务弹性。

核心要点

AMD官方博客宣布,为应对万亿参数规模AI模型训练的挑战,其与OpenAI等共同开发了MRC传输协议。该协议针对传统RoCEv2在单路径限制、链路故障恢复和低效重传(go-back-N)等方面的不足,引入了多项关键改进。

核心创新包括:1) 智能包喷洒负载均衡,利用ECMP实现多路径并发传输;2) 基于SACK/NACK的选择性丢包重传,减少网络开销;3) 源自超以太网联盟(UEC)规范的网络信号拥塞控制(NSCC),替代PFC以缓解大规模拥塞传播。

AMD深度参与了协议定义,贡献了NSCC拥塞控制算法,并扩展了IB/RDMA传输语义以兼容现有编程模型。其Pensando Pollara 400 AI网卡已在MI350/355集群中完成验证,下一代“Vulcano”800网卡正为MI400系列进行适配。

重要性说明

这标志着AI基础设施网络层正经历架构级演进。MRC若成为行业标准,将重塑超大规模AI集群的网络设计范式,从依赖无损网络硬件(PFC)转向更智能、软件定义的传输层协议,直接影响未来AI算力集群的构建成本与效率。

PRO 决策建议

**控制层转移型**
厂商:应评估在智能网卡或交换机中集成或支持MRC协议的机会,控制新兴的AI优化传输层软件栈。不行动可能在未来AI数据中心网络标准中失去话语权。
企业:为未来AI基础设施规划时,需将网络传输协议(如MRC vs RoCEv2)作为关键评估维度,其选择将影响集群规模上限和运维复杂度。建议在12-18个月内进行技术验证。
投资者:关注价值从传统网络硬件(如支持PFC的交换机)向AI优化网络软件栈和智能网卡(如DPU)迁移的趋势。监测超以太网联盟(UEC)及主要云厂商对MRC的采纳信号。
来源: blog
查看原文 →

💬 评论 (0)