这项动态的影响程度如何？

该情报被评估为对企业具有重大影响，建议技术决策者关注。

Huawei 1970-01-01

Industry Signal 影响: Major 置信: 85%

华为昇腾910C完成1.6万亿参数训练：国产算力首次突破MoE全流程

Q: 为什么Huawei的这项动态对企业重要？

这则新闻表面上是技术实力的展示，实质上是对**NVIDIA CUDA生态**的**控制平面转移**。华为通过**MindSpeed**和昇腾**CANN**，正在构建一套完全替代**CUDA**的软件栈，将训练控制权从**NVIDIA**的专有互连（**NVLink**、**NVSwitch**）和**cuDNN**库，转移到华为的**HCCS**互连和**MindSpore**框架上。其隐性锁定策略在于：一旦企业采用昇腾集群进行万亿参数训练，所有**算子优化**、**显存管理**（如**ZeRO**类技术）和**故障恢复**逻辑都将深度绑定**MindSpeed**和**CANN**，迁移成本极高。 原文刻意淡化的物理限制包括：**昇腾910C**的**HBM**带宽和**SRAM**容量远低于**H100**，导致30%的算力利用率与**H100**的40%存在显著差距——这意味着同等规模训练，昇腾集群需要更多卡数，**TCO**优势被稀释。**MoE**架构的**All-to-All**通信模式在**HCCS**上可能遭遇**尾部延迟**和**拥塞控制**瓶颈，而**PFC/ECN**机制在国产**RoCEv2**网络上的成熟度存疑。最关键的是，**1500步**训练仅验证了可运行性，未公开**收敛曲线**和**loss**指标，无法判断训练质量是否与**H100**持平。

内容摘要

华为联合河套学院等机构，基于昇腾910C集群完成DeepSeek-V4-Pro（1.6万亿参数MoE架构）全参数后训练。核心数据：千卡集群稳定1500步，算力利用率30%，算子效率提升14%，全程无海外GPU依赖，标志着国产算力首次实现万亿级大模型完整训练闭环。

核心要点

华为联合河套学院、哈工大深圳、深圳大数据研究院，依托昇腾910C集群，成功完成DeepSeek-V4-Pro（1.6万亿参数MoE架构）的全参数后训练。这是全球首次在纯国产算力平台上完成万亿级MoE大模型全部训练流程。核心数据方面，千卡昇腾910C集群稳定完成1500步完整训练；算力利用率突破30%（海外顶级GPU集群同规格约40%）；核心算子效率整体提升14%；全程无海外高端GPU依赖。
技术突破体现在多个层面：首先，万亿参数显存拆分技术——团队基于昇腾软硬件协同优化，将1.6T参数精准分配至上千颗910C芯片；其次，华为自研MindSpeed分布式加速套件配合全局动态负载均衡技术；第三，昇腾配套集群智能管控系统支持故障实时隔离、分钟级断点续训。这一里程碑的生态意义在于：证明了国产AI芯片可承接从预训练到深度后训练的完整迭代链路。2027年昇腾950超节点落地后，将成为国产顶级大模型专属算力底座，彻底打通国产芯片硬件+国产训练框架+国产超大模型的完整闭环。

重要性说明

这则新闻表面上是技术实力的展示，实质上是对NVIDIA CUDA生态的控制平面转移。华为通过MindSpeed和昇腾CANN，正在构建一套完全替代CUDA的软件栈，将训练控制权从NVIDIA的专有互连（NVLink、NVSwitch）和cuDNN库，转移到华为的HCCS互连和MindSpore框架上。其隐性锁定策略在于：一旦企业采用昇腾集群进行万亿参数训练，所有算子优化、显存管理（如ZeRO类技术）和故障恢复逻辑都将深度绑定MindSpeed和CANN，迁移成本极高。
原文刻意淡化的物理限制包括：昇腾910C的HBM带宽和SRAM容量远低于H100，导致30%的算力利用率与H100的40%存在显著差距——这意味着同等规模训练，昇腾集群需要更多卡数，TCO优势被稀释。MoE架构的All-to-All通信模式在HCCS上可能遭遇尾部延迟和拥塞控制瓶颈，而PFC/ECN机制在国产RoCEv2网络上的成熟度存疑。最关键的是，1500步训练仅验证了可运行性，未公开收敛曲线和loss指标，无法判断训练质量是否与H100持平。

PRO 决策建议

【厂商（NVIDIA、AMD、Intel）】：立即针对昇腾910C的30%利用率短板，发布H100/B200在同等MoE模型上的收敛速度和loss对比基准测试，突出NVLink在All-to-All通信中的低尾部延迟优势。同时，加速CUDA的开源替代方案（如Triton）生态建设，降低用户对MindSpeed的依赖。
【企业（CIO与架构师）】：进行零信任审计：要求华为提供1500步训练的完整loss曲线和收敛性报告，并与H100集群做A/B对比。评估HCCS互连在MoE场景下的拥塞控制表现，要求提供RoCEv2的PFC/ECN配置白皮书。考虑跨云可移植性：避免将训练框架深度绑定MindSpeed，保留PyTorch原生态接口的兼容性。
【投资者】：警惕该新闻的公关成分——30%利用率与H100的40%差距意味着TCO劣势。关注昇腾950的HBM3e带宽和SRAM容量是否真正缩小差距。短期看，国产替代主题利好华为供应链（中芯国际、长鑫存储），但长期需验证收敛质量和软件生态成熟度。

来源：拾光与亮

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)