inference - AI基础设施情报搜索

NVIDIA 其他 2026-06-22

NVIDIA JUPITER超算验证Grace Hopper平台：百亿亿次科学计算进入生产阶段

欧洲首台百亿亿次超算JUPITER基于NVIDIA Grace Hopper Superchips和Quantum-X800 InfiniBand，完成了人类大脑细胞级图谱、1公里分辨率气候模拟、6G AI模型训练和50量子比特量子计算模拟，标志着百亿亿次计算从研究走向生产。

Amazon 其他 2026-06-21

AWS 推出 AgentCore 与 MCP 网关，夺取企业 AI 代理控制平面

AWS 发布 Bedrock AgentCore 托管 Web 搜索、Amazon Quick 自主代理、LangChain 子代理编排及 MCP 网关，将企业 AI 代理从实验原型转向可治理基础设施，核心控制点从模型转向云原生控制平面与执行隔离。

AMD 其他 2026-06-18

AMD收购MEXT实现NAND闪存模拟DRAM，AI推理内存成本腰斩

AMD完成对MEXT的收购，其技术使廉价NAND闪存模拟DRAM行为，将可用内存容量提升2-4倍同时成本减半。该能力被直接瞄准AI推理和代理型AI市场，解决内存带宽瓶颈。同时AMD与Rackspace签署30MW AI计算部署协议，2026-2028年落地。

Amazon 其他 2026-06-17

AWS Trainium 以 80% MFU 突破世界模型训练性价比拐点

AWS 宣称其自研 AI 芯片 Trainium 在训练世界模型（world models）时达到 80% 模型算力利用率（MFU），近乎行业平均的两倍。通过通用指令集设计和持续高负载散热能力，Trainium 正在吸引 Odyssey、DeCart AI 等初创公司，挑战 Nvidia GPU 在 AI 训练领域的主导地位。

Google Cloud 其他 2026-06-17

ASUS联手NVIDIA推出桌面级AI超算，企业AI控制权从云端向本地急剧转移

ASUS发布基于NVIDIA GB300 Grace Blackwell Ultra Desktop Superchip的ExpertCenter Pro ET900N G3桌面系统，提供20 PFLOPS AI算力与748GB一致内存，可运行近万亿参数模型。同时，Coherent在德州扩建磷化铟工厂保障光互联供应，NVIDIA计划发行200-250亿美元债券筹资。

Google Cloud 其他 2026-06-17

Google Cloud 为 AI Agent 嵌入法律可验证身份，监管驱动架构重构

Google Cloud 为 Gemini Enterprise 和 Vertex AI Agent Engine 引入基于 SPIFFE 的 Agent Identity，并集成 Kakunin 的合规层，将内部 SPIFFE 标识映射为 AWS KMS 生成的 X.509 证书，所有状态变更写入 WORM 审计日志。此举将运行时安全升级为法律可审计的市场参与者身份，以应对 EU AI Act 和 MiCA 的问责要求。

NVIDIA 其他 2026-06-17

NVIDIA ACE本地化：用RTX硬件锁定游戏AI，控制点从云端移至GPU

NVIDIA发布ACE Game Agent SDK（开源C/C++框架）和UE5插件（ASR/SLM/TTS），将AI NPC推理完全本地化至GeForce RTX。配套DLSS 4.5插件支持多帧生成。此举旨在将游戏AI控制权从云服务商转移到NVIDIA GPU生态，但隐藏了硬件锁定与模型性能折衷。

AMD 其他 2026-06-17

AMD MLPerf 6.0：MI350系列用MXFP4实现3.5倍代际提升，多节点训练首秀

AMD在MLPerf Training 6.0中提交了最全面的结果，包括首次多节点训练（FLUX.1在512 GPU上）和MXFP4训练配方。MI355X相比MI300X在Llama 2-70B上实现3.5倍性能提升，且与NVIDIA B200的差距缩小至5%以内。10家生态伙伴验证了可复现性。

NVIDIA 其他 2026-06-16

NVIDIA Blackwell MLPerf六连冠：NVLink与NVFP4定义AI训练新范式

NVIDIA在MLPerf Training 6.0中凭借Blackwell平台全面领先，首次提交所有7个基准测试，包括MoE模型。GB300 NVL72比GB200快1.6x，通过第五代NVLink实现72 GPU一体化，NVFP4低精度训练提升性能。展示了从单机到8192 GPU集群的线性扩展能力。

HPE 其他 2026-06-16

HPE整合Juniper推自驱动网络：AI控制平面统一，锁定用户管理栈

HPE宣布将Juniper网络产品深度整合进其AI数据中心解决方案，扩展自驱动网络策略。新功能包括Mist平台支持CX交换机、Marvis AIOps引入Aruba Central、以及针对推理和扩展架构优化的QFX交换机。统一SASE平台强化零信任安全，旨在通过AI自动化简化跨边缘、园区、数据中心和AI工厂的运维。

AMD 其他 2026-06-16

AMD与Rackspace共建30MW受管AI算力：从硅层到结果的生态重构

AMD与Rackspace签署协议，分阶段部署30MW基于AMD Instinct GPU（MI355X等）和EPYC CPU的AI计算，构建面向受监管企业的“受管AI堆栈”，提供从裸金属到推理的单一责任方服务，旨在替代传统多厂商集成模式。

AMD 其他 2026-06-15

AMD收购MEXT：用AI预测让Flash逼近DRAM，降低AI内存TCO

AMD宣布收购AI内存优化初创公司MEXT，其核心技术利用AI预测模型使NAND Flash在延迟和吞吐量上逼近DRAM，旨在扩展AI服务器的有效内存容量，降低总拥有成本（TCO）。该技术将被整合进AMD数据中心全线产品，包括EPYC CPU和Instinct GPU，以应对大模型对内存的饥渴。

AMD 其他 2026-06-15

AMD通过Vultr开源AI软件组件，向NVIDIA CUDA生态发起生态重构挑战

AMD通过Vultr Marketplace发布开源、模块化的企业AI软件组件，包括AMD Inference Microservices (AIMs)、AI Workbench、Resource Manager和Solution Blueprints。该组合旨在提供生产级AI基础设施，避免单一厂商锁定，直接挑战NVIDIA的CUDA生态。

NVIDIA 其他 2026-06-15

NVIDIA力推World-Action模型：机器人控制权从语言转向视频基础模型

NVIDIA发表深度技术博客，提出World-Action Model（WAM）作为VLM-based VLA的替代路线。WAM利用预训练视频/世界模型骨干，同时预测未来状态和机器人动作，旨在克服VLA的语言-动作接地鸿沟。该范式可能重塑机器人基础模型训练格局，但面临推理成本和实时性挑战。

NVIDIA 其他 2026-06-15

NVIDIA携ASUS推桌面级DGX Station：GB300芯片下放，控制点从云转向本地硬件生态

ASUS发布ExpertCenter Pro ET900N G3，基于NVIDIA DGX Station GB300架构，搭载GB300 Grace Blackwell Ultra芯片，提供748GB统一内存和20 PFLOPS AI性能。该桌面级AI超算支持本地LLM微调、推理及AI agent工作负载，通过NVLink-C2C实现高速互连，并集成NVIDIA AI软件栈与NemoClaw框架。

MediaTek 其他 2026-06-15

Carmen Li推动GPU期货市场：算力金融化将颠覆AI基础设施采购模式

Carmen Li通过Silicon Data和Compute Exchange构建GPU价格指数和现货市场，目标推出计算期货。该计划获DRW支持，旨在解决GPU价格波动，标准化算力交易，可能创造万亿美元级新资产类别，彻底改变AI算力的定价与分配机制。

Cloudflare 其他 2026-06-15

Cloudflare吸纳Ensemble团队：架构级模型压缩重塑边缘推理经济

Cloudflare宣布吸纳Ensemble AI核心团队，引入其架构级模型压缩技术NdLinear和NdLinear-LoRA。该技术通过保留多维激活结构而非扁平化处理，直接减少Transformer模型的参数量和计算开销。此举旨在显著降低Workers AI平台的推理成本，提升GPU利用率，并加速全球边缘AI部署。

NVIDIA 其他 2026-06-14

NVIDIA借DSX平台与SK电讯共建千兆瓦级AI云，加速主权AI工厂生态锁定

SK电讯宣布采用NVIDIA DSX平台在韩国建设千兆瓦级AI云，首个AI工厂2027年上线。该平台整合NVIDIA加速计算、系统与软件，支持主权、物理及代理AI服务，旨在成为亚洲AI基础设施标杆。

NVIDIA 其他 2026-06-13

NVIDIA GB300 NVL72在Agentic AI基准测试中实现20倍能效跃升，定义新推理标准

NVIDIA在第三方AA-AgentPerf基准测试中，凭借GB300 NVL72的72 GPU NVLink域、MXFP4/MXFP8内核及MoE优化，实现每兆瓦并发agent数达H200的20倍。该基准首次标准化agentic推理性能度量，直接冲击数据中心容量规划。