inference - AI基础设施情报搜索

NVIDIA 其他 2026-07-16

测试情报-NVIDIA AI chip news

...

NVIDIA 其他 2026-07-16

NVIDIA推出Jetson Thor T3000/T2000，以Blackwell架构压降边缘AI推理成本壁垒

NVIDIA发布基于Thor架构的Jetson T3000和T2000模块。T3000集成Blackwell GPU、8核Neoverse CPU，以T5000一半的功耗提供865 FP4 TFLOPS算力，并搭配新的Jetson Agent Skills自动化内存优化工具，旨在推动人形机器人和边缘AI应用的大规模部署。

NVIDIA 其他 2026-07-07

NVIDIA发布Vera CPU：以最大单线程性能重构AI Agent生态

NVIDIA推出Vera CPU，专为AI Agent工作负载设计，采用Olympus核心，提供比x86高1.8倍的持续每核心性能。该CPU与NVIDIA GPU和BlueField统一架构，旨在构建AI工厂的统一计算平台，挑战现有x86 CPU生态。

Qualcomm 其他 2026-07-02

高通携Dragonfly C1000与HBC技术杀入AI推理，直指Nvidia HBM壁垒

高通发布Dragonfly路线图，包括自研Oryon核心的C1000 CPU和搭载HBC近存计算技术的AI300推理加速器，Meta和Microsoft已签约。目标是通过降低TCO和突破memory wall，在AI推理市场形成差异化，避开与Nvidia在训练端的正面竞争。

Cloudflare 其他 2026-07-01

Announcing the Monetization Gateway: charge for any resource behind Cloudflare via x402

...

OpenAI 其他 2026-06-25

OpenAI联合博通发布推理ASIC Jalapeño，摆脱NVIDIA GPU依赖

OpenAI与博通合作推出首款定制AI推理芯片Jalapeño，9个月完成流片，专为大模型推理优化。OpenAI负责架构，博通负责网络硬件，Celestica集成。计划2026年底大规模部署，配套千兆瓦级数据中心，旨在降低推理成本并减少对NVIDIA的依赖。

Huawei 其他 2026-06-25

华为MWC上海2026力推Token计费：从字节管道转向AI价值交付，运营商需重构网络架构

华为在MWC上海2026提出运营商应从基于字节的计费转向基于AI Token的计费，并展示了AI推理加速方案，将长序列推理吞吐量提升372%。同时强调U6 GHz频段对AI可穿戴设备上行链路的关键作用，推动5G-A网络成为AI计算交付基础设施。

Anthropic 其他 2026-06-25

Anthropic指控阿里系发起史上最大AI蒸馏攻击，暴露API安全致命漏洞

Anthropic向美国参议员致信，指控与阿里相关的运营商通过约2.5万个欺诈账户发起2880万次模型交换，系统性地提取Claude前沿能力。此事件凸显AI模型API面临的新型大规模蒸馏威胁，迫使行业重新评估推理端点安全与使用监控。

Huawei 其他 2026-06-25

华为推AI原生网络架构：从字节计费转向Token货币化，UCM缓存突破长上下文瓶颈

华为在MWC上海2026发布AI原生网络架构，集成服务-网络-计算，实现从流量中心到智能中心的转变。核心是Unified Cache Manager（UCM）将KV缓存扩展至PB级外存，在GLM-5.1模型128K序列长度下实现372% token吞吐量提升。同时推出token货币化框架，允许运营商按AI推理容量计费，并引入agentic运营模式。

Google Cloud 其他 2026-06-25

Google Cloud推多代理自主运维，控制点从人类转向AI验证架构

Google Cloud提出“agent-scale data management”，通过多代理验证架构减少人工监督，并与Nokia部署6个Gemini代理实现网络自治。同时Amazon计划商业化Trainium芯片，加剧AI硬件竞争，挑战Google TPU和Nvidia GPU。

NVIDIA 其他 2026-06-25

高通发布Dragonfly数据中心CPU与HBC内存，以推理优先架构挑战NVIDIA霸权

高通在投资者日公布完整数据中心路线图，包括250核Oryon CPU（Dragonfly C1000）、近内存计算HBC（声称133TB/s带宽）、AI300推理加速器（54x带宽提升），以及800G/1.6T互联。与Meta签署多年CPU供应协议，2028年商用，旨在以低功耗高带宽颠覆AI推理市场。

OpenAI 其他 2026-06-25

OpenAI联手Broadcom推出Jalapeno推理芯片，重塑AI硬件生态

OpenAI与Broadcom合作开发了名为Jalapeno的LLM推理加速芯片，采用多芯片模块、HBM3E内存，9个月完成流片。该芯片专为OpenAI模型栈优化，旨在降低推理成本并减少对NVIDIA GPU的依赖，计划2026年底部署。

Cisco 其他 2026-06-24

Cisco Live US & InfoComm 2026 : la collaboration entre dans l’ère agentique

...

NVIDIA 其他 2026-06-24

NVIDIA与AWS联手：cuVS默认化GPU加速向量搜索，G7实例4.6倍推理性能突破

NVIDIA与AWS深度整合，推出EC2 G7实例（基于RTX PRO 4500 Blackwell GPU），性能提升4.6倍；并在OpenSearch Serverless中默认启用cuVS进行GPU加速向量索引，速度提升10倍、成本降低75%。AWS获GB300 Exemplar Cloud认证。

NVIDIA 其他 2026-06-23

NVIDIA全栈统治超算TOP500：Grace CPU与InfiniBand锁定AI基础设施生态

NVIDIA宣布其技术驱动了81%的TOP500超算，其中Grace CPU部署增至26台，Quantum InfiniBand连接376台。全栈策略（GPU+CPU+网络）正在将超算采购从开放组件转向单一供应商锁定，Green500前八名均使用NVIDIA GPU。

AMD 其他 2026-06-23

AMD MI430X以200+ TFLOPS原生FP64性能，重新定义HPC与AI融合算力基线

AMD在TOP500榜单中驱动4台前十超算，并预览MI430X GPU，承诺超过200 TFLOPS原生FP64性能。此举直接针对AI for Science场景，将双精度计算作为下一代HPC与AI融合基础设施的核心指标，对NVIDIA和Intel形成直接竞争压力。

ASML 其他 2026-06-23

ASML CEO认可马斯克Terafab可行性，AI芯片供应链面临生态重构

ASML CEO公开表示正在跟踪马斯克计划中的太瓦级AI超级计算机Terafab，并将其与韩国DRAM巨型项目类比。这标志着全球唯一EUV光刻机供应商已为该巨型项目预留产能，可能彻底改变AI芯片的垂直整合与供应链格局。