Architecture Shift
影响: Important
强度: High
置信: 85%
AMD与OpenAI将MRC网络协议贡献给OCP,推进AI网络规模化
内容摘要
AMD与OpenAI、微软等合作,将专为大规模AI训练设计的网络协议MRC(多路径可靠连接)贡献给开放计算项目OCP。AMD不仅是协议规范的共同制定者,其可编程的Pensando DPU/NIC产品已率先实现MRC的部署与验证,旨在将网络从性能瓶颈转变为弹性、可适应的AI基础设施层。
核心要点
MRC协议旨在解决传统单路径网络在连接数万GPU的AI训练集群时面临的拥塞、延迟抖动和故障恢复慢等问题。它通过多路径并行传输和数据包分发来平滑网络流量,实现近乎实时的故障切换,从而保持GPU集群的同步与高效。
AMD在此次合作中扮演了核心角色:共同领导了MRC规范的制定,并贡献了先进的拥塞控制技术。更重要的是,AMD已在其Pensando Pollara 400 AI NIC上实现了MRC的预标准版本,并在与某领先云服务商的测试集群中完成了大规模部署验证。这为其下一代800G Vulcano AI NIC无缝过渡到MRC标准奠定了基础。
AMD在此次合作中扮演了核心角色:共同领导了MRC规范的制定,并贡献了先进的拥塞控制技术。更重要的是,AMD已在其Pensando Pollara 400 AI NIC上实现了MRC的预标准版本,并在与某领先云服务商的测试集群中完成了大规模部署验证。这为其下一代800G Vulcano AI NIC无缝过渡到MRC标准奠定了基础。
重要性说明
这标志着AI基础设施网络层正从追求峰值带宽向追求“实际可用算力”和操作弹性演进。MRC通过OCP开源,可能推动以太网在AI集群中成为更主流的可编程控制平面,挑战专有网络方案,并加速网络与计算融合的架构趋势。
PRO 决策建议
**厂商/Vendors**: 网络与DPU厂商需评估MRC对现有RoCE/InfiniBand生态的潜在冲击,并考虑通过硬件可编程性或软件栈支持来融入这一新兴标准,否则可能在下一代AI网络市场被边缘化。
**企业/Enterprises**: 计划构建大规模AI集群的企业应将网络弹性和协议开放性纳入基础设施选型标准,在评估GPU供应商时,需同时考察其网络互操作性与故障恢复能力。
**投资者/Investors**: 关注价值从专有网络硬件向支持开放标准的可编程数据平面(DPU/SmartNIC)和软件栈迁移的趋势,监测主流云厂商对MRC的采纳进度。
**企业/Enterprises**: 计划构建大规模AI集群的企业应将网络弹性和协议开放性纳入基础设施选型标准,在评估GPU供应商时,需同时考察其网络互操作性与故障恢复能力。
**投资者/Investors**: 关注价值从专有网络硬件向支持开放标准的可编程数据平面(DPU/SmartNIC)和软件栈迁移的趋势,监测主流云厂商对MRC的采纳进度。
💬 评论 (0)