H
Huawei
1970-01-01
Industry Signal 影响: Major 置信: 85%

华为昇腾910C完成1.6万亿参数训练:国产算力首次突破MoE全流程

内容摘要

华为联合河套学院等机构,基于昇腾910C集群完成DeepSeek-V4-Pro(1.6万亿参数MoE架构)全参数后训练。核心数据:千卡集群稳定1500步,算力利用率30%,算子效率提升14%,全程无海外GPU依赖,标志着国产算力首次实现万亿级大模型完整训练闭环。

核心要点

华为联合河套学院、哈工大深圳、深圳大数据研究院,依托昇腾910C集群,成功完成DeepSeek-V4-Pro(1.6万亿参数MoE架构)的全参数后训练。这是全球首次在纯国产算力平台上完成万亿级MoE大模型全部训练流程。核心数据方面,千卡昇腾910C集群稳定完成1500步完整训练;算力利用率突破30%(海外顶级GPU集群同规格约40%);核心算子效率整体提升14%;全程无海外高端GPU依赖。
技术突破体现在多个层面:首先,万亿参数显存拆分技术——团队基于昇腾软硬件协同优化,将1.6T参数精准分配至上千颗910C芯片;其次,华为自研MindSpeed分布式加速套件配合全局动态负载均衡技术;第三,昇腾配套集群智能管控系统支持故障实时隔离、分钟级断点续训。这一里程碑的生态意义在于:证明了国产AI芯片可承接从预训练到深度后训练的完整迭代链路。2027年昇腾950超节点落地后,将成为国产顶级大模型专属算力底座,彻底打通国产芯片硬件+国产训练框架+国产超大模型的完整闭环。

重要性说明

这则新闻表面上是技术实力的展示,实质上是对NVIDIA CUDA生态控制平面转移。华为通过MindSpeed和昇腾CANN,正在构建一套完全替代CUDA的软件栈,将训练控制权从NVIDIA的专有互连(NVLinkNVSwitch)和cuDNN库,转移到华为的HCCS互连和MindSpore框架上。其隐性锁定策略在于:一旦企业采用昇腾集群进行万亿参数训练,所有算子优化显存管理(如ZeRO类技术)和故障恢复逻辑都将深度绑定MindSpeedCANN,迁移成本极高。
原文刻意淡化的物理限制包括:昇腾910CHBM带宽和SRAM容量远低于H100,导致30%的算力利用率与H100的40%存在显著差距——这意味着同等规模训练,昇腾集群需要更多卡数,TCO优势被稀释。MoE架构的All-to-All通信模式在HCCS上可能遭遇尾部延迟拥塞控制瓶颈,而PFC/ECN机制在国产RoCEv2网络上的成熟度存疑。最关键的是,1500步训练仅验证了可运行性,未公开收敛曲线loss指标,无法判断训练质量是否与H100持平。

PRO 决策建议

【厂商(NVIDIA、AMD、Intel)】:立即针对昇腾910C的30%利用率短板,发布H100/B200在同等MoE模型上的收敛速度loss对比基准测试,突出NVLinkAll-to-All通信中的低尾部延迟优势。同时,加速CUDA开源替代方案(如Triton)生态建设,降低用户对MindSpeed的依赖。
【企业(CIO与架构师)】:进行零信任审计:要求华为提供1500步训练的完整loss曲线收敛性报告,并与H100集群做A/B对比。评估HCCS互连在MoE场景下的拥塞控制表现,要求提供RoCEv2PFC/ECN配置白皮书。考虑跨云可移植性:避免将训练框架深度绑定MindSpeed,保留PyTorch原生态接口的兼容性。
【投资者】:警惕该新闻的公关成分——30%利用率与H100的40%差距意味着TCO劣势。关注昇腾950HBM3e带宽和SRAM容量是否真正缩小差距。短期看,国产替代主题利好华为供应链(中芯国际长鑫存储),但长期需验证收敛质量软件生态成熟度。

来源: 拾光与亮
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)