为什么 MRC 是 AI 数据中心网络的"TCP/IP 时刻"
1983年,当TCP/IP协议栈在ARPANET上取代NCP成为标准时,整个互联网的互联互通方式发生了根本性转变。此后的四十年里,TCP/IP作为通用网络语言,让无数异构系统能够无缝通信,催生了整个互联网经济。今天,在AI基础设施领域,我们可能正在见证类似的范式转变。
2026年5月,OpenAI联合AMD、Broadcom、Intel、Microsoft、NVIDIA五家公司,通过Open Compute Project(OCP)开源了Multipath Reliable Connection(MRC)协议。这个专为10万+ GPU规模AI训练集群设计的网络传输协议,将故障恢复时间从秒级压缩至微秒级,实现了网络可靠性的质的飞跃。正如NVIDIA高级副总裁Gilad Shainer所描述的:"MRC将路由'大脑'延伸到了主机端。"
这不仅仅是一个新协议的问世,更可能是AI数据中心网络的"TCP/IP时刻"——它正在重新定义大规模GPU集群如何彼此通信、又如何应对故障。
MRC 技术架构深度拆解
1. SRv6 源路由机制:把路由决策从交换机移到NIC
传统数据中心网络依赖BGP等动态路由协议,让每台交换机独立计算数据包转发路径。这种设计在中小规模网络中运行良好,但在10万+ GPU的超大规模集群中面临严峻挑战:
- 收敛时间长:当链路故障时,动态路由协议需要多个RTT才能完成全局路由重新计算,可能需要"几十秒"
- ECMP复杂性:高基数两层拓扑中,每个T0交换机需要维护接近256条目的ECMP集合,数量接近集群中T0交换机的总数
- 诊断困难:动态路由的复杂交互使得故障定位变得极为困难
MRC采用了完全不同的策略:禁用动态路由,改用SRv6(IPv6 Segment Routing)源路由。具体实现方式如下:
- 路径编码在数据包中:发送端在数据包目标地址中嵌入完整路径(交换机标识符序列),每个交换机只需按地址指示转发,无需自主决策
- 静态转发表:交换机转发表在初始化时配置,之后基本不变,大幅降低交换机复杂度
- 微秒级故障响应:当路径失效时,MRC立即停用该路径并切换到其他路径,无需等待路由协议收敛
根据OpenAI发表的论文,在这种架构下,最长路径只需经过3台交换机,而非传统网络的5-7台。这直接将端到端延迟降低了30%-50%。
2. 多路径包喷雾(Packet Spraying):重新定义负载均衡
MRC的核心创新在于将单个RDMA传输分布到数百条路径上同时传输,而不是像传统协议那样绑定到单一路径。
熵值(Entropy Value)机制:
- 每个MRC数据包携带32位熵值(EV),分布在UDP源端口和IPv6流标签字段
- QP(Queue Pair)初始化时,发送端生成128-256个EV组成一个EV集合
- 发送时轮换使用不同EV,使数据包被喷雾到不同路径
ECN驱动的自适应负载均衡:
- 交换机启用ECN(显式拥塞通知)作为负载均衡信号
- 接收方回传ECN信号给发送方,指示特定路径拥塞程度
- 发送方临时回避拥塞路径,保持网络队列稳定
关键设计:MRC禁用了PFC(优先级流量控制),采用"尽力而为"模式。PFC在单一流跨越数百条路径时会产生队头阻塞,严重影响尾延迟。OpenAI实测表明,在大规模同步训练中,这种设计让网络利用率提升了15%-20%。
3. 多平面架构:800Gb/s变8×100Gb/s
传统架构将800Gb/s NIC视为单条链路,需要3-4层交换机组网才能支撑10万GPU集群。MRC引入了革命性的多平面设计:
核心思路:将800Gb/s NIC拆分为8个独立的100Gb/s端口,连接8个并行的100Gb/s网络平面。
架构优势:
| 对比项 | 传统3层800Gb/s架构 | MRC 2层8×100Gb/s多平面 |
|---|---|---|
| 100K GPU所需交换机层级 | 3-4层 | 2层 |
| 单T0交换机端口数 | 64端口@800Gb/s | 512端口@100Gb/s |
| 最大集群规模 | ~64K NICs | 131,072 GPUs |
| 最长路径跳数 | 5-7跳 | 3跳 |
| 光模块需求 | 100% | 66% |
| 交换机数量 | 100% | 60% |
| 单链路故障影响 | 12.5%带宽损失 | 3%带宽损失(100Gb/s平面) |
这种设计带来了显著的规模效应:
- 成本降低:全 bisection 带宽下,光模块减少1/3,交换机减少2/5
- 功耗降低:更少的交换机层级意味着更低的PUE
- 更高冗余:T0-T1链路故障仅损失3%带宽,而非12.5%
4. 微秒级故障恢复机制
在10万GPU同步训练中,任何延迟都可能造成数百万美元的训练损失。MRC实现了真正的微秒级故障恢复:
快速选择性重传(SACK):
- 接收方通过SACK(选择性确认)精确指示已接收数据包
- 发送方只重传丢失的数据包,而非整个窗口
包裁剪(Packet Trimming):
- 拥塞交换机裁剪数据包载荷,仅转发包头到目的地
- 接收NIC生成NACK触发快速重传
- 区分拥塞丢包与链路故障丢包
路径健康状态:
- 每个EV维护少量路径健康状态位
- 丢包后立即停用该EV,切换到备份路径
- 后台探测包确认路径是否恢复
实战验证:OpenAI实测显示,在大规模同步预训练任务运行期间:
- T0-T1交换机之间每分钟多次链路抖动,对训练任务没有可测量影响
- 训练期间重启4台T1交换机,无需通知训练团队,不中断任务
- GPU-NIC链路故障仅导致1/8带宽损失,任务继续运行
MRC vs 传统方案:RDMA/RoCE/InfiniBand 技术对比
| 维度 | MRC | InfiniBand | RoCE v2 |
|---|---|---|---|
| 基础架构 | 扩展RoCEv2,多路径喷雾 | 专用IB网络 | 标准以太网+RDMA |
| 单集群规模 | 131,000+ GPUs(理论) | ~10K节点(典型) | ~1K-10K节点 |
| 网络拓扑 | 2层多平面 | 多层Fat-tree | 取决于网络设计 |
| 故障恢复时间 | 微秒级 | 毫秒级 | 毫秒级 |
| 拥塞控制 | ECN+自适应喷雾 | IB拥塞控制(CCA) | PFC+ECN |
| 路径利用 | 数百路径同时喷雾 | 单路径(通常) | ECMP(有限多路径) |
| 延迟 | 极低(3跳) | 最低 | 低 |
| 硬件成本 | 以太网成本 | 专用IB设备,最贵 | 以太网成本 |
| 生态开放性 | OCP开源规范 | NVIDIA主导 | IBTA标准 |
| 适用场景 | 10万+ GPU超大规模 | 万卡级HPC/AI | 千卡级混合负载 |
核心差异解读:
MRC vs InfiniBand:MRC并非要完全取代InfiniBand。InfiniBand在单路径延迟和确定性方面仍有优势,但MRC在超大规模下的扩展性和运维简便性上具有代际优势。更重要的是,MRC基于标准以太网,降低了采购和维护成本。
MRC vs RoCE:传统RoCE采用无损以太网设计,需要复杂的PFC配置,且在高基数ECMP下性能受限。MRC的包喷雾机制从根本上解决了流碰撞问题,ECN驱动的自适应负载均衡比传统ECMP更加智能。
MRC vs UEC(Ultra Ethernet Consortium):UEC是另一个多厂商驱动的以太网传输标准项目。MRC的优势在于已经在OpenAI和Microsoft的生产环境中验证,而UEC仍在完善中。NVIDIA表示两者会共存,不同超大规模厂商会选择适合自己的方案。
MRC vs veRoCE:两条路线的抉择
高度相似的技术路径
veRoCE(字节跳动增强型RoCE)与MRC本质上都在解决RoCEv2在大规模GPU集群下的同一组核心问题:PFC风暴、ECMP冲突、单路径瓶颈。两者在技术实现上呈现出惊人的相似性:
| 特性 | veRoCE | MRC |
|---|---|---|
| 多路径传输 | 修改源端熵值+交换机喷洒 | Packet Spray |
| 乱序处理 | DDP直接数据放置 | SACK+乱序接收 |
| 选择性重传 | SACK+lazy SACK | SACK+NACK |
| 拥塞控制 | 路径粒度+连接粒度双模式 | NSCC(基于UEC 1.0规范) |
| 去PFC依赖 | 不依赖无损网络 | 去PFC |
| 慢路径检测 | 基于序列号快速剔除 | 微秒级故障切换 |
| 兼容RoCEv2 | 可自动回退RoCEv2模式 | 保持RDMA语义 |
关键差异:架构哲学的分野
尽管技术实现高度重合,两者在架构哲学上走出了截然不同的路线:
1. 架构哲学:革新派 vs 改良派
- MRC是"革新派"——用SRv6源路由重新设计转发平面,把路由决策推到NIC,禁用动态路由
- veRoCE是"改良派"——在RoCEv2基础上做增强,保留传统路由架构
2. 标准化路径
- MRC走OCP开源路线,由OpenAI+AMD+NVIDIA+Intel+Broadcom+Microsoft六家联合推动
- veRoCE目前还是字节自研+厂商合作模式,通过火山引擎开发者平台发布
3. 多平面支持
- MRC原生设计多平面2层架构,支持8个独立100Gb/s网络平面
- veRoCE更偏向在现有3层fat-tree上优化
4. 部署规模
- MRC瞄准10万+GPU,Oracle Abilene/Microsoft Fairwater已部署验证
- veRoCE目前128GPU验证阶段
5. 硬件实现
- MRC已有AMD Pensando Pollara 400/Vulcano 800 NIC实现
- veRoCE正在与NVIDIA/AMD/Broadcom等适配网卡
6. 生态开放性
- MRC通过OCP完全开源规范
- veRoCE通过火山引擎开发者平台发布,开放程度待观察
性能数据对比
| 指标 | veRoCE | MRC |
|---|---|---|
| 验证规模 | 128 GPU集群 | 10万+ GPU集群 |
| LLM训练速度提升 | 11.2% | - |
| AlltoAll吞吐提升 | 48.4% | - |
| 2%丢包率下有效吞吐 | 95.7% | - |
| 故障恢复时间 | - | 微秒级(从秒级压缩) |
| 交换层级 | 3-4层 | 2层 |
结论:两条路线,各有适用
对中国企业而言,veRoCE的兼容性路线可能更务实——它不需要重建网络架构,可以在现有RoCEv2基础设施上渐进式部署。veRoCE的回退机制也提供了更强的兼容性保障。
对超大规模训练集群(5万GPU+),MRC的SRv6架构更有长期优势——它从根本上解决了动态路由收敛问题,2层架构在成本和延迟上都有代际优势。
长期来看,两个协议可能会走向融合——MRC的SRv6转发平面+veRoCE的拥塞控制算法可能是未来AI网络的最优组合。这与UEC(Ultra Ethernet Consortium)推动的标准化方向也不谋而合。
六家联合发布的战略意义
为什么是 OpenAI 牵头?
OpenAI是当今最需要对网络可靠性负责的企业。其训练任务消耗着价值数亿美元的GPU算力,一次网络故障可能导致整个训练run失败,损失可达数百万美元。
OpenAI的Sachin Katti(工业计算负责人)表示:"在有意义的规模下,可靠性和效率不是锦上添花,而是使同步前沿模型训练成为可能的前提条件。"
OpenAI牵头MRC开发的战略考量:
- 需求驱动:内部存在对10万+ GPU网络可靠性的迫切需求
- 技术积累:团队拥有多年大规模集群运维经验
- 标准话语权:通过开源避免被单一厂商锁定
- 生态构建:吸引硬件厂商共建,扩大影响力
为什么 AMD/NVIDIA/Intel 都参与?
三大芯片厂商同时参与的逻辑在于:
NVIDIA:Spectrum-X是其AI网络的核心平台。MRC强化了Spectrum-X的竞争力,将其定位为"MRC最优执行平台"。NVIDIA强调其差异化在于硬件深度遥测和智能网络控制。
AMD:通过AMD Pollara和Vulcano网卡支持MRC,扩大其AI网络市场份额。AMD的参与表明其认真对待AI基础设施市场。
Intel:通过IPU侧驱动开发参与MRC生态,Intel正在重新定位其在AI基础设施中的角色。
Broadcom:Thor Ultra NIC和Tomahawk 5/6交换芯片原生支持MRC,是网络芯片层面的核心贡献者。
Microsoft:作为云厂商和OpenAI算力提供者,Microsoft在其Fairwater超级计算机中部署MRC,提供生产环境验证。
关键洞察:这是一个典型的"竞合"格局——NVIDIA和AMD在GPU市场激烈竞争,但在网络协议上选择合作。这反映了AI基础设施规模扩张带来的新博弈逻辑。
已部署案例:Oracle Abilene 与 Microsoft Fairwater
Oracle Cloud Infrastructure — Abilene 数据中心
Oracle Abilene数据中心是OpenAI算力基础设施的重要组成部分。该设施采用NVIDIA GB200系统,运行着支撑ChatGPT和Codex的前沿模型训练任务。
部署效果:
- 成功运行75K GPU级别的大规模同步预训练任务
- 网络空闲等待时间减少90%+
- GPU有效算力利用率显著提升
Microsoft Fairwater 超级计算机
Fairwater是微软面向AI训练构建的超级计算机集群,位于Atlanta和Wisconsin。
部署效果:
- 采用两层多平面架构支撑10万+ GPU集群
- 交换机维护可在带电状态下进行,不影响训练
- 实现了真正的"零中断运维"
实战数据:从论文看 MRC 表现
OpenAI发表的论文《Resilient AI Supercomputer Networking using MRC and SRv6》提供了详细的实测数据:
- 启动丢包率:75K GPU任务启动时,丢包率在前2分钟内快速下降,最终稳定在每NIC每秒少于1次丢包(对应800Gb/s下约1/2500万丢包率)
- 链路抖动容忍:T0-T1链路每分钟多次抖动,对同步预训练任务没有可测量影响
- 交换机重启影响:训练期间重启4台T1交换机,训练任务继续运行,无需人工干预
对产业链的深远影响
网络设备商:Arista/Cisco/Juniper
挑战:
- 传统交换机的动态路由和复杂配置在MRC架构中变得多余
- 需要支持SRv6微段路由和MRC转发模式
- 硬件性能要求更高:512端口@100Gb/s的交换机成为标配
机遇:
- 多平面架构增加交换机总需求
- SRv6支持成为差异化卖点
- 与芯片厂商深度合作成为必要
Arista已经与OpenAI合作,在EOS上实现了SRv6支持。其他厂商需要加速跟进。
芯片商:NVIDIA/Mellanox vs AMD/Pensando/Broadcom
NVIDIA/Mellanox:
- Spectrum-X是最优MRC执行平台,品牌优势巩固
- ConnectX-8 SuperNIC原生支持MRC
- 风险:开源协议可能削弱其InfiniBand溢价空间
AMD:
- Pollara和Vulcano网卡支持MRC,扩大AI网络市场份额
- ROCm生态与MRC的协同优化机会
Broadcom:
- Thor Ultra NIC支持2/4/8平面架构,可分布128路径
- Tomahawk 5(51.2Tbps)和Tomahawk 6(102.4Tbps)成为核心交换芯片
Intel/Pensando:
- IPU/DPU侧MRC支持,提供差异化价值
- Pensando DSC(分布式服务卡)在SmartNIC市场与MRC结合
云厂商:Azure/AWS/GCP/OCI
Azure:
- Fairwater超级计算机是MRC生产验证典范
- 多租户GPU云服务可利用MRC提升利用率30%-50%
- 为Azure AI客户提供更可靠的训练服务
OCI:
- Abilene数据中心运营经验成为核心竞争力
- 吸引更多AI客户使用其GPU云服务
AWS/GCP:
- TPU/Trainium平台面临类似网络瓶颈
- 行业预测:未来12个月内将有适配动作
超大规模数据中心建设成本降低 20-30%
MRC对TCO的影响是全方位的:
- 硬件成本:两层交换机架构减少2/5交换机,光模块减少1/3
- 电力成本:10万GPU集群年电费节省可达2.3亿元人民币(基于GPU利用率提升至95%+)
- 运维成本:微秒级故障恢复减少人工干预,运维团队可管理更大规模集群
- 机会成本:训练任务中断损失大幅减少
企业决策建议
AI 实验室与前沿研究机构
- 评估MRC作为下一代训练集群网络标准的时机
- 参与OCP社区,推动协议演进
- 关注Spectrum-X、Mellanox、Broadcom Thor等已支持MRC的硬件平台
云服务商
- 将MRC纳入AI云服务的技术选型
- 评估多租户GPU池的利用率提升空间
- 与芯片厂商合作优化MRC在特定工作负载下的表现
企业 AI 团队
- 关注MRC在中小规模集群(<1000 GPU)的适用性
- 评估从RoCE v2迁移的成本效益
- 与技术供应商保持沟通,了解产品路线图
网络设备与芯片厂商
- 加速SRv6功能支持
- 与OCP社区合作推动互操作性测试
- 差异化竞争聚焦于硬件Telemetry和智能控制平面
结语:AI 网络的"TCP/IP 时刻"已经到来
MRC的发布标志着AI数据中心网络进入了一个新阶段。它证明了在超大规模AI训练中,网络不再是"哑管道",而是需要专门设计的"智能基础设施"。
未来的百万GPU集群网络标准,可能就在今天开始定调。企业现在就需要认真评估MRC及其对自身AI战略的影响。先行者将在未来的AI基础设施竞争中占据优势。
战略重要性
为什么这个协议对行业重要
网络从"哑管道"进化为"智能基础设施"
在传统数据中心,网络被视为传输数据的"管道"。但MRC证明了在10万+ GPU同步训练场景下,网络本身就是计算管道的一部分。
微秒级故障恢复重新定义可靠性标准
MRC将故障恢复时间从秒级压缩至微秒级,训练任务真正实现"永远在线"。
开源打破厂商锁定
通过OCP开源,MRC避免成为任何单一厂商的差异化工具。
决策选择
决策建议(按角色分类)
AI实验室与前沿研究机构
- 立即行动:评估MRC作为下一代训练集群网络标准
- 技术准备:联系Spectrum-X、Broadcom Thor等硬件厂商
- 社区参与:加入OCP社区
- 人才储备:培养具备SRv6和MRC运维能力的技术团队
云服务商
- 战略评估:评估MRC对多租户GPU云服务竞争力的影响
- 性能验证:在测试环境中验证MRC性能提升
- 成本建模:计算从RoCE v2迁移到MRC的TCO变化
企业AI团队
- 观望评估:关注MRC在中小规模集群的适用性
- 供应商对话:与技术供应商讨论产品MRC支持时间表
网络设备与芯片厂商
- 产品加速:加速SRv6微段路由功能开发
- 互操作测试:与OCP社区合作推动互操作性测试
预测验证
未来6-12个月预测
市场影响
- AWS/GCP跟进:预计在未来12个月内,AWS和Google Cloud将公布类似网络优化方案
- MRC生态扩大:超过30家厂商将宣布MRC支持计划
- InfiniBand压力:NVIDIA InfiniBand溢价空间将受到挤压
技术演进
- MRC 2.0:基于生产反馈的协议优化,预计2026年底发布
- UEC融合:MRC与UEC标准可能在部分特性上融合
- 百万GPU支持:针对1M GPU集群的扩展研究将启动
产业链变化
- 交换机架构:512端口@100Gb/s交换机从高端走向主流
- 运维变革:AI集群网络运维从"救火"转向"规划"模式
- 成本下降:超大规模数据中心建设成本降低20-30%
💬 评论 (0)