AI Inference - AI基础设施情报搜索

Qualcomm 其他 2026-07-02

高通携Dragonfly C1000与HBC技术杀入AI推理，直指Nvidia HBM壁垒

高通发布Dragonfly路线图，包括自研Oryon核心的C1000 CPU和搭载HBC近存计算技术的AI300推理加速器，Meta和Microsoft已签约。目标是通过降低TCO和突破memory wall，在AI推理市场形成差异化，避开与Nvidia在训练端的正面竞争。

Huawei 其他 2026-06-25

华为MWC上海2026力推Token计费：从字节管道转向AI价值交付，运营商需重构网络架构

华为在MWC上海2026提出运营商应从基于字节的计费转向基于AI Token的计费，并展示了AI推理加速方案，将长序列推理吞吐量提升372%。同时强调U6 GHz频段对AI可穿戴设备上行链路的关键作用，推动5G-A网络成为AI计算交付基础设施。

Huawei 其他 2026-06-25

华为推AI原生网络架构：从字节计费转向Token货币化，UCM缓存突破长上下文瓶颈

华为在MWC上海2026发布AI原生网络架构，集成服务-网络-计算，实现从流量中心到智能中心的转变。核心是Unified Cache Manager（UCM）将KV缓存扩展至PB级外存，在GLM-5.1模型128K序列长度下实现372% token吞吐量提升。同时推出token货币化框架，允许运营商按AI推理容量计费，并引入agentic运营模式。

NVIDIA 其他 2026-06-25

高通发布Dragonfly数据中心CPU与HBC内存，以推理优先架构挑战NVIDIA霸权

高通在投资者日公布完整数据中心路线图，包括250核Oryon CPU（Dragonfly C1000）、近内存计算HBC（声称133TB/s带宽）、AI300推理加速器（54x带宽提升），以及800G/1.6T互联。与Meta签署多年CPU供应协议，2028年商用，旨在以低功耗高带宽颠覆AI推理市场。

NVIDIA 其他 2026-06-24

NVIDIA与AWS联手：cuVS默认化GPU加速向量搜索，G7实例4.6倍推理性能突破

NVIDIA与AWS深度整合，推出EC2 G7实例（基于RTX PRO 4500 Blackwell GPU），性能提升4.6倍；并在OpenSearch Serverless中默认启用cuVS进行GPU加速向量索引，速度提升10倍、成本降低75%。AWS获GB300 Exemplar Cloud认证。

NVIDIA 其他 2026-06-23

NVIDIA全栈统治超算TOP500：Grace CPU与InfiniBand锁定AI基础设施生态

NVIDIA宣布其技术驱动了81%的TOP500超算，其中Grace CPU部署增至26台，Quantum InfiniBand连接376台。全栈策略（GPU+CPU+网络）正在将超算采购从开放组件转向单一供应商锁定，Green500前八名均使用NVIDIA GPU。

NVIDIA 其他 2026-06-22

NVIDIA JUPITER超算验证Grace Hopper平台：百亿亿次科学计算进入生产阶段

欧洲首台百亿亿次超算JUPITER基于NVIDIA Grace Hopper Superchips和Quantum-X800 InfiniBand，完成了人类大脑细胞级图谱、1公里分辨率气候模拟、6G AI模型训练和50量子比特量子计算模拟，标志着百亿亿次计算从研究走向生产。

AMD 其他 2026-06-16

AMD与Rackspace共建30MW受管AI算力：从硅层到结果的生态重构

AMD与Rackspace签署协议，分阶段部署30MW基于AMD Instinct GPU（MI355X等）和EPYC CPU的AI计算，构建面向受监管企业的“受管AI堆栈”，提供从裸金属到推理的单一责任方服务，旨在替代传统多厂商集成模式。

AMD 其他 2026-06-15

AMD通过Vultr开源AI软件组件，向NVIDIA CUDA生态发起生态重构挑战

AMD通过Vultr Marketplace发布开源、模块化的企业AI软件组件，包括AMD Inference Microservices (AIMs)、AI Workbench、Resource Manager和Solution Blueprints。该组合旨在提供生产级AI基础设施，避免单一厂商锁定，直接挑战NVIDIA的CUDA生态。

Cloudflare 其他 2026-06-15

Cloudflare吸纳Ensemble团队：架构级模型压缩重塑边缘推理经济

Cloudflare宣布吸纳Ensemble AI核心团队，引入其架构级模型压缩技术NdLinear和NdLinear-LoRA。该技术通过保留多维激活结构而非扁平化处理，直接减少Transformer模型的参数量和计算开销。此举旨在显著降低Workers AI平台的推理成本，提升GPU利用率，并加速全球边缘AI部署。

NVIDIA 其他 2026-06-13

NVIDIA推AgentPerf基准测试：Blackwell Ultra每瓦代理数较Hopper提升20倍

NVIDIA与Artificial Analysis联合发布首个Agentic AI基准测试AgentPerf，结果显示GB300 NVL72平台在运行DeepSeek V4 Pro等MoE模型时，每兆瓦可承载的并发代理数较HGX H200提升20倍。该基准模拟真实编码代理轨迹，测量端到端吞吐与响应延迟。

Google 其他 2026-06-09

GKE Inference Gateway前缀缓存：AI推理延迟降低92%，但锁定风险暗藏

Google Cloud推出GKE Inference Gateway，通过前缀缓存和模型感知路由，在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态，企业需警惕架构弹性损失。

Intel 其他 2026-06-02

英特尔 Computex 2026：以 18A 和机架级系统重塑 AI 推理控制权

英特尔发布基于 18A 的 Core Ultra Series 3 和 Xeon 6+（288 e-cores），与 Perplexity 合作推出混合本地推理编排，与 Foxconn 共建机架级 AI 基础设施，与 SambaNova 提供解耦推理云。重点强调 CPU 在 agentic AI 中的编排角色，意图将控制平面从 GPU 转移至 x86。

Intel 其他 2026-06-02

Intel联合SambaNova推机架级AI推理，CPU重掌数据中心控制权

Intel在Computex 2026发布基于Xeon 6+与SambaNova SN-50 RDUs的机架级AI基础设施，并展示由Vector Core Compute运营的完全解耦推理云（预填充用NVIDIA Blackwell，解码用RDU）。此举旨在将CPU重新置于AI推理核心，改变训练时代的GPU主导格局。

NVIDIA 其他 2026-06-01

NVIDIA BlueField DPU硬件隔离安全：将AI工厂控制点从软件转向硅片

NVIDIA发布基于BlueField-4 DPU的DOCA安全堆栈（Argus、Vault、Flow），通过硬件隔离执行域实现运行时内存分析、零信任文件访问和800Gb/s网络策略执行。该架构将安全控制从主机操作系统转移到DPU硅片，在不影响AI性能前提下提供分布式全栈保护，但深度绑定Vera Rubin平台，形成生态锁定。

NVIDIA 其他 2026-06-01

NVIDIA DSX OS：以开源软件夺取AI工厂控制平面，锁定生态

NVIDIA发布DSX OS，一套开源模块化软件，用于运营AI工厂。包含DSX Exchange、MaxLPS、NICo、NVSentinel等组件，统一IT/OT通信、电源优化、生命周期管理。声称可在固定功率下多运行40% GPU，但核心依赖NVIDIA专有硬件，旨在锁定用户至其生态。

Intel 其他 2026-06-01

Intel以Xeon 6+与E835重塑AI控制平面：CPU重新成为agentic AI的编排核心

Intel发布基于Intel 18A的Xeon 6+处理器（288个E-core）、E835 200GbE控制器及Crescent Island GPU。核心战略是让CPU重回AI基础设施中心，作为agentic AI工作负载的编排与数据移动控制平面，并试图通过E835以太网组合锁定AI数据中心网络标准。

Google 其他 2026-05-19

谷歌云I/O'26推出统一Agent开发平台，A2A协议与Managed Agents API锁定控制层

谷歌云在I/O'26发布统一Agent开发工具包，包括Antigravity 2.0桌面应用、Managed Agents API、ADK 2.0及A2A协议。该平台将Vertex AI演进为Gemini Enterprise Agent Platform，提供从低代码到代码优先的四层开发阶梯，旨在通过共享协议层统一本地开发与云端部署，但实质是将agent生命周期控制权集中于谷歌云管理平面。

Cisco 其他 2026-05-14

思科Unified Edge平台：服务商边缘AI服务的新生态捆绑

思科推出Cisco Unified Edge平台，整合计算、网络、存储和安全，通过Intersight集中管理，面向服务提供商在数千个边缘站点部署AI推理等低延迟服务。Verizon作为早期用户，计划将边缘能力捆绑进企业连接服务。

Cisco 其他 2026-05-07

思科与AMD联合基准测试：将AI网络控制点从GPU移至智能网卡与交换机

思科与AMD联合发布基于N9000 800G交换机、Pensando Pollara 400智能网卡和MI300X GPU的AI组网基准测试。通过IBPerf和MLPerf测试，展示在incast拥塞下P01/P99带宽均接近400Gbps线速，证明其架构能消除GPU空转，实现确定性性能。

情报

筛选