memory - AI基础设施情报搜索

MediaTek 其他 2026-06-15

Carmen Li推动GPU期货市场：算力金融化将颠覆AI基础设施采购模式

Carmen Li通过Silicon Data和Compute Exchange构建GPU价格指数和现货市场，目标推出计算期货。该计划获DRW支持，旨在解决GPU价格波动，标准化算力交易，可能创造万亿美元级新资产类别，彻底改变AI算力的定价与分配机制。

Cloudflare 其他 2026-06-15

Cloudflare吸纳Ensemble团队：架构级模型压缩重塑边缘推理经济

Cloudflare宣布吸纳Ensemble AI核心团队，引入其架构级模型压缩技术NdLinear和NdLinear-LoRA。该技术通过保留多维激活结构而非扁平化处理，直接减少Transformer模型的参数量和计算开销。此举旨在显著降低Workers AI平台的推理成本，提升GPU利用率，并加速全球边缘AI部署。

NVIDIA 其他 2026-06-14

NVIDIA与SK海力士深度捆绑：定制内存重塑AI工厂生态，锁定Vera Rubin与Jetson Thor

NVIDIA与SK hynix宣布多年期技术合作，将共同开发面向Vera Rubin AI超级计算机、Vera CPU、RTX Spark PC及Jetson Thor机器人平台的下一代定制内存。SK hynix还将利用NVIDIA CUDA-X库和Omniverse平台加速半导体设计与制造，构建自主晶圆厂数字孪生。

NVIDIA 其他 2026-06-14

NVIDIA推出Vera CPU：从GPU加速迈向AI Agent控制平面自主化

NVIDIA发布专为AI Agent设计的Vera CPU，基于88核Olympus架构，配备1.2TB/s LPDDR5X内存，声称比x86 CPU任务完成速度提升1.8倍。客户包括Anthropic、OpenAI等，意在将AI工作负载的控制平面从传统CPU转移到NVIDIA定制平台。

Microsoft 其他 2026-06-11

微软联合NVIDIA推RTX Spark Arm AI芯片，Windows PC算力跨越1 Petaflop门槛

微软在Computex 2026宣布与NVIDIA、MediaTek合作推出RTX Spark Arm架构AI超级芯片，集成Blackwell RTX GPU和128GB统一内存，支持本地运行120B参数大模型。同时Intel Arc G3、高通Snapdragon X2系列齐发，Windows AI PC生态全面升级。

NVIDIA 其他 2026-06-11

NVIDIA联手Google DeepMind推出并行文本生成模型，吞吐量突破1000 tokens/sec

NVIDIA宣布与Google DeepMind合作优化DiffusionGemma，该模型基于扩散去噪实现每步并行生成256个token，在单个H100上达到1000 tokens/sec，并通过NIM和NeMo提供即用部署，显著降低推理成本和延迟。

NVIDIA 其他 2026-06-11

NVIDIA借DiffusionGemma并行生成，将本地AI推理控制权锁定于自家GPU

NVIDIA优化Google DeepMind的DiffusionGemma开源模型，该模型通过并行生成256 tokens（非逐token）实现4倍加速。在H100上达1000 tokens/sec，DGX Spark上150 tokens/sec，完全本地运行，无云成本。此举强化了NVIDIA GPU在计算密集型本地AI推理中的核心地位。

AMD 其他 2026-06-11

AMD携手戴尔与剑桥大学，以开放ROCm生态撬动英国主权AI算力基建

AMD联合戴尔和剑桥大学宣布建立英国主权AI创新实验室（SAIL），部署基于第五代EPYC和Instinct MI355X GPU的Zenith超级计算机，以及用于聚变能源研究的Sunrise系统。该实验室旨在推动开放、可互操作的AI基础设施，以ROCm软件栈为核心，对抗NVIDIA的CUDA生态锁定，为英国政府和研究机构提供长期技术选择。

Amazon 其他 2026-06-10

Graviton5 与 Nitro 形式化验证：AWS 用 ARM 和数学锁定 AI 时代 CPU 控制权

AWS 推出第五代自研 ARM 处理器 Graviton5，搭载于 M9g/M9gd 实例，性能提升 25%，支持 PCIe Gen6 和 DDR5-8800，首次引入形式化验证的 Nitro Isolation Engine。Meta 已部署数千万核支撑 agentic AI 推理，ARM 在云 CPU 赛道上完成关键突破。

Google 其他 2026-06-10

Google发布Lightning Engine：4.9x性能提升背后的生态锁定与架构隐忧

Google Cloud宣布Lightning Engine全面可用，基于开源Gluten和Velox实现向量化原生执行，声称性能提升4.9倍，价格性能比领先2倍。深度优化Cloud Storage和BigQuery连接器，但通过专有集成和premium tier强化生态锁定。

AMD 其他 2026-06-10

AMD EPYC以机架级密度宣战：Agentic AI的CPU控制权之争

AMD发布博客，宣称其EPYC处理器在机架级性能上领先NVIDIA Vera和Intel Xeon，专为Agentic AI的CPU密集型服务（如编排、缓存、数据库）设计。通过100kW机架模型，EPYC 9965（Turin）实现2.37倍于Vera的吞吐量，下一代“Venice”将扩展至3.30倍。强调现有x86平台即可部署，无需等待未来架构。

Google 其他 2026-06-09

GKE Inference Gateway前缀缓存：AI推理延迟降低92%，但锁定风险暗藏

Google Cloud推出GKE Inference Gateway，通过前缀缓存和模型感知路由，在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态，企业需警惕架构弹性损失。

NVIDIA 其他 2026-06-08

NVIDIA 借英国主权AI基金，从芯片商跃升为国家AI基础设施的幕后控制者

NVIDIA 与英国政府合作，通过 Isambard-AI（搭载 5,400 颗 GH200）及 Sovereign AI Fund，扶持本地初创（Cosine, Cursive, Doubleword）。此举表面是技术部署，实则是 NVIDIA 构建主权AI控制平面，将国家算力锁入其生态系统，削弱AWS/Azure等传统云厂商的地位。

NVIDIA 其他 2026-06-04

NVIDIA Nemotron 3 Ultra：以MoE与MOPD重构AI Agent控制平面，锁定企业推理成本

NVIDIA发布**Nemotron 3 Ultra**，一个550B参数MoE模型（55B活跃），专为AI Agent编排而设计。通过**多教师在线策略蒸馏（MOPD）** 与**Hybrid Mamba-Transformer**架构，其在**SWE-bench**等任务中实现5倍吞吐量提升与30%成本节省，标志着推理控制权从单一模型向分层Agent系统的转移。

Microsoft 其他 2026-06-02

微软Build大会：从芯片到云构建Agent时代统一生态

微软在Build大会上发布一系列Agent时代基础设施：Project Solara芯片到云平台、Microsoft IQ统一知识层、Rayfin后端生成、Azure HorizonDB、GPU加速分析等，旨在将开发者锁定在微软生态内。

Samsung Electronics 其他 2026-06-02

TrendForce预警：HBM利润率被DDR5反超，2027年合约价或将翻倍暴涨

TrendForce最新报告指出，HBM每晶圆收入在1Q26已被DDR5 64GB RDIMM反超，导致HBM利润率低于传统DRAM。供应商将据此调整产能分配，预计2027年HBM4合约价将大幅上涨。NVIDIA Rubin Ultra与AI ASIC需求将进一步加剧HBM供应紧张。

ARM 其他 2026-06-02

Arm与NVIDIA联手推出RTX Spark：Agentic AI PC架构从x86转向Arm+GPU紧耦合

Arm与NVIDIA合作推出的RTX Spark采用Arm Grace CPU与Blackwell RTX GPU通过统一内存紧密耦合，专为Agentic AI时代设计，提供超低延迟本地推理能力。该平台标志着Windows on Arm生态的重大突破，旨在满足开发者、创作者和游戏玩家的高性能AI计算需求。

ARM 其他 2026-06-02

Arm与NVIDIA联手推出RTX Spark：统一内存架构重塑Agentic PC生态，合围x86阵营

Arm与NVIDIA合作推出基于Arm Grace CPU和Blackwell RTX GPU的RTX Spark平台，采用统一内存架构，专为Windows on Arm生态下的Agentic AI推理设计。该平台提供1 Petaflop算力，显著降低token处理成本，标志着PC从应用驱动向Agent驱动的根本转变，并得到微软的全面支持。

NVIDIA 其他 2026-06-02

NVIDIA DGX Spark更新：一键部署本地AI代理，多节点集群扩展至400B模型

NVIDIA在Computex 2026发布DGX Spark软件更新，包括NemoClaw一键安装本地AI代理、Qwen3.6-35B模型在vLLM上实现2.6倍性能提升、以及Sync集群助手支持2-4节点通过ConnectX-7 200Gbps RoCE高速互联，使本地运行大规模自主代理和多节点分布式推理成为可能。

Cisco 其他 2026-06-02

思科AI Defense升级：以Agent供应链安全为名，行平台锁定之实

思科发布AI Defense重大更新，聚焦AI Agent安全，引入自适应红队测试、策略工作室（Policy Studio）和自动Agent依赖图扫描。新功能旨在实现跨平台（AWS Bedrock、Google ADK、LangChain）的上下文感知保护，但深度绑定Cisco Secure AI Factory与NVIDIA生态，隐藏了性能开销和迁移成本。

情报

筛选

Carmen Li推动GPU期货市场：算力金融化将颠覆AI基础设施采购模式

Cloudflare吸纳Ensemble团队：架构级模型压缩重塑边缘推理经济

NVIDIA与SK海力士深度捆绑：定制内存重塑AI工厂生态，锁定Vera Rubin与Jetson Thor

NVIDIA推出Vera CPU：从GPU加速迈向AI Agent控制平面自主化

微软联合NVIDIA推RTX Spark Arm AI芯片，Windows PC算力跨越1 Petaflop门槛

NVIDIA联手Google DeepMind推出并行文本生成模型，吞吐量突破1000 tokens/sec

NVIDIA借DiffusionGemma并行生成，将本地AI推理控制权锁定于自家GPU

AMD携手戴尔与剑桥大学，以开放ROCm生态撬动英国主权AI算力基建

Graviton5 与 Nitro 形式化验证：AWS 用 ARM 和数学锁定 AI 时代 CPU 控制权

Google发布Lightning Engine：4.9x性能提升背后的生态锁定与架构隐忧

AMD EPYC以机架级密度宣战：Agentic AI的CPU控制权之争

GKE Inference Gateway前缀缓存：AI推理延迟降低92%，但锁定风险暗藏

NVIDIA 借英国主权AI基金，从芯片商跃升为国家AI基础设施的幕后控制者

NVIDIA Nemotron 3 Ultra：以MoE与MOPD重构AI Agent控制平面，锁定企业推理成本

微软Build大会：从芯片到云构建Agent时代统一生态

TrendForce预警：HBM利润率被DDR5反超，2027年合约价或将翻倍暴涨

Arm与NVIDIA联手推出RTX Spark：Agentic AI PC架构从x86转向Arm+GPU紧耦合

Arm与NVIDIA联手推出RTX Spark：统一内存架构重塑Agentic PC生态，合围x86阵营

NVIDIA DGX Spark更新：一键部署本地AI代理，多节点集群扩展至400B模型

思科AI Defense升级：以Agent供应链安全为名，行平台锁定之实