MRC协议深度解析：10万+GPU集群网络的新范式是什么？

OpenAI联合AMD、Broadcom、Intel、Microsoft、NVIDIA六家公司通过Open Compute Project开源MRC（Multipath Reliable Connection）网络协议。该协议专为10万+GPU规模AI训练集群设计，采用SRv6源路由、多路径包喷雾和多平面架构，将故障恢复时间从秒级压缩至微秒级，交换层级从3-4层简化为2层，已在Oracle Abilene和Microsoft Fairwater数据中心部署。MRC的发布标志着AI训练网络从「通用协议适配」转向「专用协议定制」的新阶段，对网络设备商、芯片商和云厂商的竞争格局产生深远影响。

MRC协议深度解析：10万+GPU集群网络的新范式有什么重要意义？

微秒级故障恢复、SRv6源路由与多平面架构如何重塑AI训练网络

OpenAIMRC协议深度解析：10万+GPU集群网络的新范式：微秒级故障恢复、SRv6源路由与多平面架构如何重塑...

为什么 MRC 是 AI 数据中心网络的"TCP/IP 时刻"

1983年，当TCP/IP协议栈在ARPANET上取代NCP成为标准时，整个互联网的互联互通方式发生了根本性转变。此后的四十年里，TCP/IP作为通用网络语言，让无数异构系统能够无缝通信，催生了整个互联网经济。今天，在AI基础设施领域，我们可能正在见证类似的范式转变。

2026年5月，OpenAI联合AMD、Broadcom、Intel、Microsoft、NVIDIA五家公司，通过Open Compute Project（OCP）开源了Multipath Reliable Connection（MRC）协议。这个专为10万+ GPU规模AI训练集群设计的网络传输协议，将故障恢复时间从秒级压缩至微秒级，实现了网络可靠性的质的飞跃。正如NVIDIA高级副总裁Gilad Shainer所描述的："MRC将路由'大脑'延伸到了主机端。"

这不仅仅是一个新协议的问世，更可能是AI数据中心网络的"TCP/IP时刻"——它正在重新定义大规模GPU集群如何彼此通信、又如何应对故障。

MRC 技术架构深度拆解

1. SRv6 源路由机制：把路由决策从交换机移到NIC

传统数据中心网络依赖BGP等动态路由协议，让每台交换机独立计算数据包转发路径。这种设计在中小规模网络中运行良好，但在10万+ GPU的超大规模集群中面临严峻挑战：

收敛时间长：当链路故障时，动态路由协议需要多个RTT才能完成全局路由重新计算，可能需要"几十秒"
ECMP复杂性：高基数两层拓扑中，每个T0交换机需要维护接近256条目的ECMP集合，数量接近集群中T0交换机的总数
诊断困难：动态路由的复杂交互使得故障定位变得极为困难

MRC采用了完全不同的策略：禁用动态路由，改用SRv6（IPv6 Segment Routing）源路由。具体实现方式如下：

路径编码在数据包中：发送端在数据包目标地址中嵌入完整路径（交换机标识符序列），每个交换机只需按地址指示转发，无需自主决策
静态转发表：交换机转发表在初始化时配置，之后基本不变，大幅降低交换机复杂度
微秒级故障响应：当路径失效时，MRC立即停用该路径并切换到其他路径，无需等待路由协议收敛

根据OpenAI发表的论文，在这种架构下，最长路径只需经过3台交换机，而非传统网络的5-7台。这直接将端到端延迟降低了30%-50%。

2. 多路径包喷雾（Packet Spraying）：重新定义负载均衡

MRC的核心创新在于将单个RDMA传输分布到数百条路径上同时传输，而不是像传统协议那样绑定到单一路径。

熵值（Entropy Value）机制：

每个MRC数据包携带32位熵值（EV），分布在UDP源端口和IPv6流标签字段
QP（Queue Pair）初始化时，发送端生成128-256个EV组成一个EV集合
发送时轮换使用不同EV，使数据包被喷雾到不同路径

ECN驱动的自适应负载均衡：

交换机启用ECN（显式拥塞通知）作为负载均衡信号
接收方回传ECN信号给发送方，指示特定路径拥塞程度
发送方临时回避拥塞路径，保持网络队列稳定

关键设计：MRC禁用了PFC（优先级流量控制），采用"尽力而为"模式。PFC在单一流跨越数百条路径时会产生队头阻塞，严重影响尾延迟。OpenAI实测表明，在大规模同步训练中，这种设计让网络利用率提升了15%-20%。

3. 多平面架构：800Gb/s变8×100Gb/s

传统架构将800Gb/s NIC视为单条链路，需要3-4层交换机组网才能支撑10万GPU集群。MRC引入了革命性的多平面设计：

核心思路：将800Gb/s NIC拆分为8个独立的100Gb/s端口，连接8个并行的100Gb/s网络平面。

架构优势：

对比项	传统3层800Gb/s架构	MRC 2层8×100Gb/s多平面
100K GPU所需交换机层级	3-4层	2层
单T0交换机端口数	64端口@800Gb/s	512端口@100Gb/s
最大集群规模	~64K NICs	131,072 GPUs
最长路径跳数	5-7跳	3跳
光模块需求	100%	66%
交换机数量	100%	60%
单链路故障影响	12.5%带宽损失	3%带宽损失（100Gb/s平面）

这种设计带来了显著的规模效应：

成本降低：全 bisection 带宽下，光模块减少1/3，交换机减少2/5
功耗降低：更少的交换机层级意味着更低的PUE
更高冗余：T0-T1链路故障仅损失3%带宽，而非12.5%

4. 微秒级故障恢复机制

在10万GPU同步训练中，任何延迟都可能造成数百万美元的训练损失。MRC实现了真正的微秒级故障恢复：

快速选择性重传（SACK）：

接收方通过SACK（选择性确认）精确指示已接收数据包
发送方只重传丢失的数据包，而非整个窗口

包裁剪（Packet Trimming）：

拥塞交换机裁剪数据包载荷，仅转发包头到目的地
接收NIC生成NACK触发快速重传
区分拥塞丢包与链路故障丢包

路径健康状态：

每个EV维护少量路径健康状态位
丢包后立即停用该EV，切换到备份路径
后台探测包确认路径是否恢复

实战验证：OpenAI实测显示，在大规模同步预训练任务运行期间：

T0-T1交换机之间每分钟多次链路抖动，对训练任务没有可测量影响
训练期间重启4台T1交换机，无需通知训练团队，不中断任务
GPU-NIC链路故障仅导致1/8带宽损失，任务继续运行

MRC vs 传统方案：RDMA/RoCE/InfiniBand 技术对比

维度	MRC	InfiniBand	RoCE v2
基础架构	扩展RoCEv2，多路径喷雾	专用IB网络	标准以太网+RDMA
单集群规模	131,000+ GPUs（理论）	~10K节点（典型）	~1K-10K节点
网络拓扑	2层多平面	多层Fat-tree	取决于网络设计
故障恢复时间	微秒级	毫秒级	毫秒级
拥塞控制	ECN+自适应喷雾	IB拥塞控制（CCA）	PFC+ECN
路径利用	数百路径同时喷雾	单路径（通常）	ECMP（有限多路径）
延迟	极低（3跳）	最低	低
硬件成本	以太网成本	专用IB设备，最贵	以太网成本
生态开放性	OCP开源规范	NVIDIA主导	IBTA标准
适用场景	10万+ GPU超大规模	万卡级HPC/AI	千卡级混合负载

核心差异解读：

MRC vs InfiniBand：MRC并非要完全取代InfiniBand。InfiniBand在单路径延迟和确定性方面仍有优势，但MRC在超大规模下的扩展性和运维简便性上具有代际优势。更重要的是，MRC基于标准以太网，降低了采购和维护成本。

MRC vs RoCE：传统RoCE采用无损以太网设计，需要复杂的PFC配置，且在高基数ECMP下性能受限。MRC的包喷雾机制从根本上解决了流碰撞问题，ECN驱动的自适应负载均衡比传统ECMP更加智能。

MRC vs UEC（Ultra Ethernet Consortium）：UEC是另一个多厂商驱动的以太网传输标准项目。MRC的优势在于已经在OpenAI和Microsoft的生产环境中验证，而UEC仍在完善中。NVIDIA表示两者会共存，不同超大规模厂商会选择适合自己的方案。

MRC vs veRoCE：两条路线的抉择

高度相似的技术路径

veRoCE（字节跳动增强型RoCE）与MRC本质上都在解决RoCEv2在大规模GPU集群下的同一组核心问题：PFC风暴、ECMP冲突、单路径瓶颈。两者在技术实现上呈现出惊人的相似性：

特性	veRoCE	MRC
多路径传输	修改源端熵值+交换机喷洒	Packet Spray
乱序处理	DDP直接数据放置	SACK+乱序接收
选择性重传	SACK+lazy SACK	SACK+NACK
拥塞控制	路径粒度+连接粒度双模式	NSCC（基于UEC 1.0规范）
去PFC依赖	不依赖无损网络	去PFC
慢路径检测	基于序列号快速剔除	微秒级故障切换
兼容RoCEv2	可自动回退RoCEv2模式	保持RDMA语义

关键差异：架构哲学的分野

尽管技术实现高度重合，两者在架构哲学上走出了截然不同的路线：

1. 架构哲学：革新派 vs 改良派

MRC是"革新派"——用SRv6源路由重新设计转发平面，把路由决策推到NIC，禁用动态路由
veRoCE是"改良派"——在RoCEv2基础上做增强，保留传统路由架构

2. 标准化路径

MRC走OCP开源路线，由OpenAI+AMD+NVIDIA+Intel+Broadcom+Microsoft六家联合推动
veRoCE目前还是字节自研+厂商合作模式，通过火山引擎开发者平台发布

3. 多平面支持

MRC原生设计多平面2层架构，支持8个独立100Gb/s网络平面
veRoCE更偏向在现有3层fat-tree上优化

4. 部署规模

MRC瞄准10万+GPU，Oracle Abilene/Microsoft Fairwater已部署验证
veRoCE目前128GPU验证阶段

5. 硬件实现

MRC已有AMD Pensando Pollara 400/Vulcano 800 NIC实现
veRoCE正在与NVIDIA/AMD/Broadcom等适配网卡

6. 生态开放性

MRC通过OCP完全开源规范
veRoCE通过火山引擎开发者平台发布，开放程度待观察

性能数据对比

指标	veRoCE	MRC
验证规模	128 GPU集群	10万+ GPU集群
LLM训练速度提升	11.2%	-
AlltoAll吞吐提升	48.4%	-
2%丢包率下有效吞吐	95.7%	-
故障恢复时间	-	微秒级（从秒级压缩）
交换层级	3-4层	2层

结论：两条路线，各有适用

对中国企业而言，veRoCE的兼容性路线可能更务实——它不需要重建网络架构，可以在现有RoCEv2基础设施上渐进式部署。veRoCE的回退机制也提供了更强的兼容性保障。

对超大规模训练集群（5万GPU+），MRC的SRv6架构更有长期优势——它从根本上解决了动态路由收敛问题，2层架构在成本和延迟上都有代际优势。

长期来看，两个协议可能会走向融合——MRC的SRv6转发平面+veRoCE的拥塞控制算法可能是未来AI网络的最优组合。这与UEC（Ultra Ethernet Consortium）推动的标准化方向也不谋而合。

六家联合发布的战略意义

为什么是 OpenAI 牵头？

OpenAI是当今最需要对网络可靠性负责的企业。其训练任务消耗着价值数亿美元的GPU算力，一次网络故障可能导致整个训练run失败，损失可达数百万美元。

OpenAI的Sachin Katti（工业计算负责人）表示："在有意义的规模下，可靠性和效率不是锦上添花，而是使同步前沿模型训练成为可能的前提条件。"

OpenAI牵头MRC开发的战略考量：

需求驱动：内部存在对10万+ GPU网络可靠性的迫切需求
技术积累：团队拥有多年大规模集群运维经验
标准话语权：通过开源避免被单一厂商锁定
生态构建：吸引硬件厂商共建，扩大影响力

为什么 AMD/NVIDIA/Intel 都参与？

三大芯片厂商同时参与的逻辑在于：

NVIDIA：Spectrum-X是其AI网络的核心平台。MRC强化了Spectrum-X的竞争力，将其定位为"MRC最优执行平台"。NVIDIA强调其差异化在于硬件深度遥测和智能网络控制。

AMD：通过AMD Pollara和Vulcano网卡支持MRC，扩大其AI网络市场份额。AMD的参与表明其认真对待AI基础设施市场。

Intel：通过IPU侧驱动开发参与MRC生态，Intel正在重新定位其在AI基础设施中的角色。

Broadcom：Thor Ultra NIC和Tomahawk 5/6交换芯片原生支持MRC，是网络芯片层面的核心贡献者。

Microsoft：作为云厂商和OpenAI算力提供者，Microsoft在其Fairwater超级计算机中部署MRC，提供生产环境验证。

关键洞察：这是一个典型的"竞合"格局——NVIDIA和AMD在GPU市场激烈竞争，但在网络协议上选择合作。这反映了AI基础设施规模扩张带来的新博弈逻辑。

已部署案例：Oracle Abilene 与 Microsoft Fairwater

Oracle Cloud Infrastructure — Abilene 数据中心

Oracle Abilene数据中心是OpenAI算力基础设施的重要组成部分。该设施采用NVIDIA GB200系统，运行着支撑ChatGPT和Codex的前沿模型训练任务。

部署效果：

成功运行75K GPU级别的大规模同步预训练任务
网络空闲等待时间减少90%+
GPU有效算力利用率显著提升

Microsoft Fairwater 超级计算机

Fairwater是微软面向AI训练构建的超级计算机集群，位于Atlanta和Wisconsin。

部署效果：

采用两层多平面架构支撑10万+ GPU集群
交换机维护可在带电状态下进行，不影响训练
实现了真正的"零中断运维"

实战数据：从论文看 MRC 表现

OpenAI发表的论文《Resilient AI Supercomputer Networking using MRC and SRv6》提供了详细的实测数据：

启动丢包率：75K GPU任务启动时，丢包率在前2分钟内快速下降，最终稳定在每NIC每秒少于1次丢包（对应800Gb/s下约1/2500万丢包率）
链路抖动容忍：T0-T1链路每分钟多次抖动，对同步预训练任务没有可测量影响
交换机重启影响：训练期间重启4台T1交换机，训练任务继续运行，无需人工干预

对产业链的深远影响

网络设备商：Arista/Cisco/Juniper

挑战：

传统交换机的动态路由和复杂配置在MRC架构中变得多余
需要支持SRv6微段路由和MRC转发模式
硬件性能要求更高：512端口@100Gb/s的交换机成为标配

机遇：

多平面架构增加交换机总需求
SRv6支持成为差异化卖点
与芯片厂商深度合作成为必要

Arista已经与OpenAI合作，在EOS上实现了SRv6支持。其他厂商需要加速跟进。

芯片商：NVIDIA/Mellanox vs AMD/Pensando/Broadcom

NVIDIA/Mellanox：

Spectrum-X是最优MRC执行平台，品牌优势巩固
ConnectX-8 SuperNIC原生支持MRC
风险：开源协议可能削弱其InfiniBand溢价空间

AMD：

Pollara和Vulcano网卡支持MRC，扩大AI网络市场份额
ROCm生态与MRC的协同优化机会

Broadcom：

Thor Ultra NIC支持2/4/8平面架构，可分布128路径
Tomahawk 5（51.2Tbps）和Tomahawk 6（102.4Tbps）成为核心交换芯片

Intel/Pensando：

IPU/DPU侧MRC支持，提供差异化价值
Pensando DSC（分布式服务卡）在SmartNIC市场与MRC结合

云厂商：Azure/AWS/GCP/OCI

Azure：

Fairwater超级计算机是MRC生产验证典范
多租户GPU云服务可利用MRC提升利用率30%-50%
为Azure AI客户提供更可靠的训练服务

OCI：

Abilene数据中心运营经验成为核心竞争力
吸引更多AI客户使用其GPU云服务

AWS/GCP：

TPU/Trainium平台面临类似网络瓶颈
行业预测：未来12个月内将有适配动作

超大规模数据中心建设成本降低 20-30%

MRC对TCO的影响是全方位的：

硬件成本：两层交换机架构减少2/5交换机，光模块减少1/3
电力成本：10万GPU集群年电费节省可达2.3亿元人民币（基于GPU利用率提升至95%+）
运维成本：微秒级故障恢复减少人工干预，运维团队可管理更大规模集群
机会成本：训练任务中断损失大幅减少

企业决策建议

AI 实验室与前沿研究机构

评估MRC作为下一代训练集群网络标准的时机
参与OCP社区，推动协议演进
关注Spectrum-X、Mellanox、Broadcom Thor等已支持MRC的硬件平台

云服务商

将MRC纳入AI云服务的技术选型
评估多租户GPU池的利用率提升空间
与芯片厂商合作优化MRC在特定工作负载下的表现

企业 AI 团队

关注MRC在中小规模集群（<1000 GPU）的适用性
评估从RoCE v2迁移的成本效益
与技术供应商保持沟通，了解产品路线图

网络设备与芯片厂商

加速SRv6功能支持
与OCP社区合作推动互操作性测试
差异化竞争聚焦于硬件Telemetry和智能控制平面

结语：AI 网络的"TCP/IP 时刻"已经到来

MRC的发布标志着AI数据中心网络进入了一个新阶段。它证明了在超大规模AI训练中，网络不再是"哑管道"，而是需要专门设计的"智能基础设施"。

未来的百万GPU集群网络标准，可能就在今天开始定调。企业现在就需要认真评估MRC及其对自身AI战略的影响。先行者将在未来的AI基础设施竞争中占据优势。

🎯

战略重要性

为什么这个协议对行业重要

网络从"哑管道"进化为"智能基础设施"

在传统数据中心，网络被视为传输数据的"管道"。但MRC证明了在10万+ GPU同步训练场景下，网络本身就是计算管道的一部分。

微秒级故障恢复重新定义可靠性标准

MRC将故障恢复时间从秒级压缩至微秒级，训练任务真正实现"永远在线"。

开源打破厂商锁定

通过OCP开源，MRC避免成为任何单一厂商的差异化工具。

⚡ PRO

决策选择

决策建议（按角色分类）

AI实验室与前沿研究机构

立即行动：评估MRC作为下一代训练集群网络标准
技术准备：联系Spectrum-X、Broadcom Thor等硬件厂商
社区参与：加入OCP社区
人才储备：培养具备SRv6和MRC运维能力的技术团队

云服务商

战略评估：评估MRC对多租户GPU云服务竞争力的影响
性能验证：在测试环境中验证MRC性能提升
成本建模：计算从RoCE v2迁移到MRC的TCO变化

企业AI团队

观望评估：关注MRC在中小规模集群的适用性
供应商对话：与技术供应商讨论产品MRC支持时间表

网络设备与芯片厂商

产品加速：加速SRv6微段路由功能开发
互操作测试：与OCP社区合作推动互操作性测试

🔮 PRO

预测验证

未来6-12个月预测

市场影响

AWS/GCP跟进：预计在未来12个月内，AWS和Google Cloud将公布类似网络优化方案
MRC生态扩大：超过30家厂商将宣布MRC支持计划
InfiniBand压力：NVIDIA InfiniBand溢价空间将受到挤压

技术演进

MRC 2.0：基于生产反馈的协议优化，预计2026年底发布
UEC融合：MRC与UEC标准可能在部分特性上融合
百万GPU支持：针对1M GPU集群的扩展研究将启动

产业链变化

交换机架构：512端口@100Gb/s交换机从高端走向主流
运维变革：AI集群网络运维从"救火"转向"规划"模式
成本下降：超大规模数据中心建设成本降低20-30%

MRC协议深度解析：10万+GPU集群网络的新范式

为什么 MRC 是 AI 数据中心网络的"TCP/IP 时刻"

MRC 技术架构深度拆解

1. SRv6 源路由机制：把路由决策从交换机移到NIC

2. 多路径包喷雾（Packet Spraying）：重新定义负载均衡

3. 多平面架构：800Gb/s变8×100Gb/s

4. 微秒级故障恢复机制

MRC vs 传统方案：RDMA/RoCE/InfiniBand 技术对比

MRC vs veRoCE：两条路线的抉择

高度相似的技术路径

关键差异：架构哲学的分野

性能数据对比

结论：两条路线，各有适用

六家联合发布的战略意义

为什么是 OpenAI 牵头？

为什么 AMD/NVIDIA/Intel 都参与？

已部署案例：Oracle Abilene 与 Microsoft Fairwater

Oracle Cloud Infrastructure — Abilene 数据中心

Microsoft Fairwater 超级计算机

实战数据：从论文看 MRC 表现

对产业链的深远影响

网络设备商：Arista/Cisco/Juniper

芯片商：NVIDIA/Mellanox vs AMD/Pensando/Broadcom

云厂商：Azure/AWS/GCP/OCI

超大规模数据中心建设成本降低 20-30%

企业决策建议

AI 实验室与前沿研究机构

云服务商

企业 AI 团队

网络设备与芯片厂商

结语：AI 网络的"TCP/IP 时刻"已经到来

战略重要性

为什么这个协议对行业重要

决策选择

决策建议（按角色分类）

AI实验室与前沿研究机构

云服务商

企业AI团队

网络设备与芯片厂商

预测验证

未来6-12个月预测

市场影响

技术演进

产业链变化

💬 评论 (0)