AI训练 - AI基础设施情报搜索

Google Cloud 其他 2026-06-21

谷歌Trillium TPU：4.7倍训练性能提升背后的算力锁定与生态陷阱

谷歌云发布第六代TPU Trillium，采用3纳米工艺，AI训练性能提升4.7倍，推理性能提升2.5倍，能效比H100高2倍。但Trillium仅限Google Cloud TPU v6p实例，深度绑定AI Hypercomputer架构，形成从芯片到网络的全栈锁定。

Microsoft Azure 其他 2026-06-21

微软Azure Blackwell Ultra集群发布，AI训练即服务锁定生态控制权

微软Azure发布搭载NVIDIA Blackwell Ultra GPU的AI超级计算机集群，峰值算力超200 exaflops，并推出AI训练即服务（AI Training as a Service）。与OpenAI合作部署GPT-6训练集群（预计2027年），采用液冷技术实现PUE 1.08，旨在将万亿参数模型训练全面迁移至云平台。

Meta 其他 2026-06-17

Meta面临欧盟巨额罚款风险WhatsApp AI功能受阻

...

TSMC 其他 2026-06-17

台积电首次公开CoWoS玻璃基板开发计划

...

AMD 其他 2026-06-16

AMD关键RCE漏洞124天未修复，安全研究员公开披露引爆AI基础设施信任危机

安全研究员mr.bruh公开披露了AMD一个关键远程代码执行漏洞，该漏洞在124天内未修复，AMD拒绝支付1万美元赏金。该漏洞影响基于AMD EPYC和Instinct的AI服务器，被比作AI基础设施的Log4j时刻，迫使企业重新评估芯片级安全响应与供应链风险。

NVIDIA 其他 2026-05-16

NVIDIA CUDA漏洞暴露GPU云共享隔离架构根本缺陷：从驱动层到硬件层的安全范式必须重构

Pwn2Own Berlin 2026上，NVIDIA CUDA Toolkit NVVM编译器堆溢出漏洞(CVE-2026-12839)被成功利用，实现GPU云跨租户逃逸。攻击链从恶意PTX代码到驱动层再到主机内核，彻底打破当前依赖驱动隔离的GPU共享模型，迫使行业重新评估AI基础设施安全架构。

Amazon 合作伙伴强信号 2026-04-15

AWS与OpenAI签署380亿美元AI云合作

OpenAI与AWS签署7年期380亿美元协议，部署数千块NVIDIA GB200/GB300 GPU。OpenAI首次重大多元化Azure基础设施。

OpenAI 其他强信号 2026-03-31

OpenAI 融资1220亿美元加速全球AI基础设施建设

OpenAI宣布获得1220亿美元融资，将用于扩展全球前沿AI能力、投资下一代计算基础设施，并满足ChatGPT、Codex和企业级AI的快速增长需求。这笔创纪录融资将显著提升其AI训练集群和推理基础设施的建设规模。

AMD 其他中信号 2026-03-19

AMD与Celestica合作推出机架级AI平台Helios

AMD与电子制造服务商Celestica合作推出Helios机架级AI平台，集成Instinct加速器和EPYC处理器，提供从芯片到机架级的整体优化。该平台针对AI训练和推理任务进行性能与能效优化，旨在满足数据中心和云服务提供商的AI算力需求。

NVIDIA 其他强信号 2026-03-18

NVIDIA推动AI机器人从模拟到生产的技术突破

NVIDIA在物理AI领域展示机器人开发新范式，通过统一仿真与生产环境加速产业自动化进程。该方案整合AI训练框架与边缘计算架构，为制造业、农业等领域提供端到端机器人开发平台。

HPE 其他强信号 2026-03-16

HPE Alletra MP X10000成为首个NVIDIA认证的企业AI对象存储平台

HPE宣布其Alletra Storage MP X10000成为首个获得NVIDIA认证的企业级AI对象存储平台。这标志着存储性能与AI工作负载的认证标准从计算层延伸至数据层，旨在解决大规模AI训练、微调和推理中的数据访问瓶颈。

Meta 其他强信号 2026-03-11

Meta加速自研AI芯片路线图，专注推理优化

Meta计划两年内推出四代自研AI芯片MTIA系列，采用‘推理优先’设计策略，专注于生成式AI推理任务优化。芯片基于PyTorch和开放计算标准构建，支持数据中心无缝部署。这一快速迭代策略旨在提升计算效率和成本控制。

NVIDIA 其他中信号 2026-03-10

NVIDIA推出RTX PRO Server虚拟化方案优化游戏开发AI基础设施

NVIDIA发布RTX PRO Server，基于RTX PRO 6000 GPU和vGPU软件构建集中式虚拟化GPU平台。支持MIG技术将单GPU划分为48个用户实例，提升资源利用率和团队协作效率。整合AI训练与图形工作流，实现动态资源分配和跨地域开发统一。

NVIDIA 其他强信号 2026-03-09

ABB与NVIDIA通过Omniverse集成实现工业机器人高保真仿真

ABB Robotics与NVIDIA合作将Omniverse库集成至RobotStudio，推出RobotStudio HyperReality产品。通过USD文件导出和虚拟控制器实现99%仿真精度，支持AI训练流水线合成数据生成。该方案可降低40%部署成本并加速50%产品上市时间。

Huawei 其他中信号 2026-03-05

华为发布AI-Native数据中心网络方案星河AI Fabric 2.0

华为推出星河AI Fabric 2.0数据中心网络解决方案，采用AI-Native架构实现网络自治。方案包含自研Solar 5.0芯片交换机、iLossless 3.0智能无损算法和智能管理平台，支持万卡AI集群协同。

TSMC 其他强信号 2026-03-05

台积电通过先进制程与3D封装技术推动AI硬件创新

台积电披露AI技术研究进展，聚焦N3/N2等先进制程节点和3D Fabric异构集成技术，通过优化晶体管架构和封装方案提升AI芯片性能与能效。该技术旨在突破内存带宽瓶颈，支持从云到边缘的AI应用。

Huawei 其他强信号 2026-03-04

华为发布AI数据平台采用存算分离架构

华为发布专为AI工作负载设计的数据平台，采用存算分离架构提升数据流动效率。平台集成高性能文件系统支持EB级数据，内置加速引擎可缩短AI训练数据准备时间30%。提供统一数据管理视图，无缝对接主流AI框架和昇腾计算硬件。

AMD 其他中信号 2026-03-02

AMD推出ROCm AI开发者中心强化软件生态

AMD推出ROCm AI开发者中心，提供一站式AI开发资源平台，支持从入门指南到性能优化的全流程。关键展示包括在AMD GPU上使用Slime进行强化学习训练，体现其生态在复杂AI场景的应用能力。

AMD 其他中信号 2026-02-28

AMD与TCS合作在印度部署Helios AI机架架构

AMD与塔塔咨询合作，在印度市场推出基于Instinct MI300加速器的Helios机架级AI架构，支持大规模AI训练和推理工作负载。该解决方案以完整机架形式交付，可扩展至数千节点集群，专为生成式AI和HPC优化。合作结合TCS的云、AI和网络安全集成服务，提供端到端AI解决方案。