情报
AI 生成的结构化厂商动态简报
NVIDIA 发布容器化 AI 模型文档自动生成工具包,集成 RAG 与 NIM 应对监管
NVIDIA 推出 Model Card Generator (MCG) 工具包,一个容器化流水线,可在一分钟内自动从源代码生成符合 Model Card++ 标准的 AI 模型文档。该工具利用 NVIDIA Nemotron RAG 进行高精度信息检索,并由大语言模型(如 GPT-OSS-120B)提取和格式化内容,旨在应对欧盟 AI 法案等法规要求。
英伟达发布Vera Rubin平台,通过软硬件协同设计解决智能体AI规模化难题
英伟达发布Vera Rubin平台,通过Vera Rubin NVL72 GPU与Groq 3 LPX LPU的异构协同,结合Dynamo编排器,旨在解决智能体AI推理在长上下文、万亿参数MoE模型下的规模化、低延迟与高吞吐挑战。
NVIDIA通过cuPyNumeric与GDS加速科学计算工作流
NVIDIA展示了其XANI工作流,利用cuPyNumeric分布式计算库与GPUDirect Storage,将量子材料X射线分析的计算时间从9个月缩短至4小时。这标志着GPU加速正从训练/推理向科学计算与实时数据处理的端到端工作流渗透。
NVIDIA联合Slurm优化GB200 NVL72集群调度,应对机架级AI算力挑战
NVIDIA与Slurm社区合作,针对GB200 NVL72机架级GPU集群引入新的拓扑/块调度插件。该方案将NVLink域视为硬调度边界,通过`--segment`等参数精细控制作业放置,以应对跨域性能骤降问题,标志着AI基础设施调度从网络优化转向算力域感知。
NVIDIA为NCCL引入Prometheus实时监控,强化AI训练可观测性
NVIDIA在NCCL 2.30中推出Prometheus模式,将GPU间通信性能指标转化为时间序列数据。这使AI训练团队能够通过Grafana仪表板实时监控和调试分布式训练性能问题,尤其是网络与NVLink混合通信场景下的瓶颈。
NVIDIA Rubin GPU生产目标下调,Blackwell 2026年占比升至71%
NVIDIA Rubin GPU生产目标从200万颗下调至150万颗,主要因HBM4内存验证延迟。TrendForce数据显示2026年Blackwell占比从61%升至71%,巩固主导地位。美光退出Rubin HBM4供应链,SK海力士将占70%份额。分析师维持增持评级,认为影响有限。Rubin延迟可能延长SK海力士HBM3E的市场主导期。
英伟达内部规模化部署GPT-5.5驱动AI代理,定义企业AI基础设施新范式
英伟达宣布其超过1万名员工已通过Codex应用,在基于GB200 NVL72的NVIDIA基础设施上规模化使用GPT-5.5。此举不仅展示了前沿模型推理在企业内部工作流中实现‘变革性’生产力的技术可行性,更通过专用的安全云VM架构,为企业部署AI代理提供了可审计、隔离的参考范式。
NVIDIA内部部署OpenAI Codex:万人使用GPT-5.5驱动智能体编程革命
NVIDIA超过10,000名员工使用OpenAI Codex,GPT-5.5运行于GB200 NVL72平台,推理成本降低35倍。
NVIDIA与Google Cloud深化合作,构建面向AI工厂与物理AI的云基础设施
NVIDIA与Google Cloud宣布合作升级,推出基于Vera Rubin和Blackwell GPU的新实例,旨在构建支持近百万GPU集群的“AI工厂”,并整合Gemini、Nemotron等模型平台,加速从智能体到物理AI(如机器人、数字孪生)的生产级部署。
微软提前启用Fairwater超大规模AI数据中心,定义AI基础设施新标准
微软宣布其位于威斯康星州的Fairwater数据中心提前投入运营。该中心被定位为全球最强大的AI数据中心,集成了数十万个NVIDIA GB200 GPU,通过大规模光纤互连构成单一无缝集群,旨在为下一代AI模型训练和推理提供前所未有的算力规模。
TSMC Q1财报:先进封装产能瓶颈将持续制约2025年AI芯片供应
台积电Q1财报显示HPC业务占比首次突破60%,CoWoS先进封装产能将持续紧张至2027年,AI芯片供应链的真正瓶颈不在制程而在封装。
AWS与OpenAI签署380亿美元AI云合作
OpenAI与AWS签署7年期380亿美元协议,部署数千块NVIDIA GB200/GB300 GPU。OpenAI首次重大多元化Azure基础设施。
NVIDIA发布Slinky slurm-operator,在Kubernetes上融合HPC与AI调度
NVIDIA通过其收购的SchedMD,推出开源项目Slinky的slurm-operator,使HPC领域主流的Slurm作业调度系统能够以原生方式在Kubernetes上运行。该方案将Slurm组件容器化,通过CRD管理集群生命周期,实现了Slurm与Kubernetes生态在监控、自动扩缩容、节点维护及多节点NVLink拓扑感知等方面的双向状态同步。
NVIDIA将GPU动态资源分配驱动捐给Kubernetes社区
NVIDIA将其GPU动态资源分配(DRA)驱动捐献给CNCF,使其成为Kubernetes上游项目。此举旨在将GPU编排的核心控制点从厂商专有层上移至开源社区,并协同多家云厂商推动标准化。
NVIDIA 通过 NVFP4 量化与 TeaCache 技术将 FLUX.2 图像生成模型推理速度提升 10 倍
NVIDIA 与 Black Forest Labs 合作,针对 FLUX.2 [dev] 图像生成模型,在 Blackwell 数据中心 GPU 上应用了包括 NVFP4 4-bit 量化、Timestep Embedding Aware Caching (TeaCache)、CUDA Graphs 及多 GPU 支持在内的一系列推理优化技术。这些优化使模型在双 B200 GPU 配置下相比 H200 实现了 10.2 倍的延迟降低,并将内存占用减少超 40%,显著降低了高质量图像生成模型的部署门槛。