情报
AI 生成的结构化厂商动态简报
Carmen Li推动GPU期货市场:算力金融化将颠覆AI基础设施采购模式
Carmen Li通过Silicon Data和Compute Exchange构建GPU价格指数和现货市场,目标推出计算期货。该计划获DRW支持,旨在解决GPU价格波动,标准化算力交易,可能创造万亿美元级新资产类别,彻底改变AI算力的定价与分配机制。
Cloudflare吸纳Ensemble团队:架构级模型压缩重塑边缘推理经济
Cloudflare宣布吸纳Ensemble AI核心团队,引入其架构级模型压缩技术NdLinear和NdLinear-LoRA。该技术通过保留多维激活结构而非扁平化处理,直接减少Transformer模型的参数量和计算开销。此举旨在显著降低Workers AI平台的推理成本,提升GPU利用率,并加速全球边缘AI部署。
NVIDIA与SK海力士深度捆绑:定制内存重塑AI工厂生态,锁定Vera Rubin与Jetson Thor
NVIDIA与SK hynix宣布多年期技术合作,将共同开发面向Vera Rubin AI超级计算机、Vera CPU、RTX Spark PC及Jetson Thor机器人平台的下一代定制内存。SK hynix还将利用NVIDIA CUDA-X库和Omniverse平台加速半导体设计与制造,构建自主晶圆厂数字孪生。
NVIDIA推出Vera CPU:从GPU加速迈向AI Agent控制平面自主化
NVIDIA发布专为AI Agent设计的Vera CPU,基于88核Olympus架构,配备1.2TB/s LPDDR5X内存,声称比x86 CPU任务完成速度提升1.8倍。客户包括Anthropic、OpenAI等,意在将AI工作负载的控制平面从传统CPU转移到NVIDIA定制平台。
微软联合NVIDIA推RTX Spark Arm AI芯片,Windows PC算力跨越1 Petaflop门槛
微软在Computex 2026宣布与NVIDIA、MediaTek合作推出RTX Spark Arm架构AI超级芯片,集成Blackwell RTX GPU和128GB统一内存,支持本地运行120B参数大模型。同时Intel Arc G3、高通Snapdragon X2系列齐发,Windows AI PC生态全面升级。
NVIDIA联手Google DeepMind推出并行文本生成模型,吞吐量突破1000 tokens/sec
NVIDIA宣布与Google DeepMind合作优化DiffusionGemma,该模型基于扩散去噪实现每步并行生成256个token,在单个H100上达到1000 tokens/sec,并通过NIM和NeMo提供即用部署,显著降低推理成本和延迟。
NVIDIA借DiffusionGemma并行生成,将本地AI推理控制权锁定于自家GPU
NVIDIA优化Google DeepMind的DiffusionGemma开源模型,该模型通过并行生成256 tokens(非逐token)实现4倍加速。在H100上达1000 tokens/sec,DGX Spark上150 tokens/sec,完全本地运行,无云成本。此举强化了NVIDIA GPU在计算密集型本地AI推理中的核心地位。
AMD携手戴尔与剑桥大学,以开放ROCm生态撬动英国主权AI算力基建
AMD联合戴尔和剑桥大学宣布建立英国主权AI创新实验室(SAIL),部署基于第五代EPYC和Instinct MI355X GPU的Zenith超级计算机,以及用于聚变能源研究的Sunrise系统。该实验室旨在推动开放、可互操作的AI基础设施,以ROCm软件栈为核心,对抗NVIDIA的CUDA生态锁定,为英国政府和研究机构提供长期技术选择。
Graviton5 与 Nitro 形式化验证:AWS 用 ARM 和数学锁定 AI 时代 CPU 控制权
AWS 推出第五代自研 ARM 处理器 Graviton5,搭载于 M9g/M9gd 实例,性能提升 25%,支持 PCIe Gen6 和 DDR5-8800,首次引入形式化验证的 Nitro Isolation Engine。Meta 已部署数千万核支撑 agentic AI 推理,ARM 在云 CPU 赛道上完成关键突破。
Google发布Lightning Engine:4.9x性能提升背后的生态锁定与架构隐忧
Google Cloud宣布Lightning Engine全面可用,基于开源Gluten和Velox实现向量化原生执行,声称性能提升4.9倍,价格性能比领先2倍。深度优化Cloud Storage和BigQuery连接器,但通过专有集成和premium tier强化生态锁定。
AMD EPYC以机架级密度宣战:Agentic AI的CPU控制权之争
AMD发布博客,宣称其EPYC处理器在机架级性能上领先NVIDIA Vera和Intel Xeon,专为Agentic AI的CPU密集型服务(如编排、缓存、数据库)设计。通过100kW机架模型,EPYC 9965(Turin)实现2.37倍于Vera的吞吐量,下一代“Venice”将扩展至3.30倍。强调现有x86平台即可部署,无需等待未来架构。
GKE Inference Gateway前缀缓存:AI推理延迟降低92%,但锁定风险暗藏
Google Cloud推出GKE Inference Gateway,通过前缀缓存和模型感知路由,在Llama 3.1 8B模型上实现92.8%更短首令牌延迟和15.7%更高吞吐量。Snap实测缓存命中率达75-80%。但该技术深度绑定GKE Gateway API和Google生态,企业需警惕架构弹性损失。
NVIDIA 借英国主权AI基金,从芯片商跃升为国家AI基础设施的幕后控制者
NVIDIA 与英国政府合作,通过 Isambard-AI(搭载 5,400 颗 GH200)及 Sovereign AI Fund,扶持本地初创(Cosine, Cursive, Doubleword)。此举表面是技术部署,实则是 NVIDIA 构建主权AI控制平面,将国家算力锁入其生态系统,削弱AWS/Azure等传统云厂商的地位。
NVIDIA Nemotron 3 Ultra:以MoE与MOPD重构AI Agent控制平面,锁定企业推理成本
NVIDIA发布**Nemotron 3 Ultra**,一个550B参数MoE模型(55B活跃),专为AI Agent编排而设计。通过**多教师在线策略蒸馏(MOPD)** 与**Hybrid Mamba-Transformer**架构,其在**SWE-bench**等任务中实现5倍吞吐量提升与30%成本节省,标志着推理控制权从单一模型向分层Agent系统的转移。
微软Build大会:从芯片到云构建Agent时代统一生态
微软在Build大会上发布一系列Agent时代基础设施:Project Solara芯片到云平台、Microsoft IQ统一知识层、Rayfin后端生成、Azure HorizonDB、GPU加速分析等,旨在将开发者锁定在微软生态内。
TrendForce预警:HBM利润率被DDR5反超,2027年合约价或将翻倍暴涨
TrendForce最新报告指出,HBM每晶圆收入在1Q26已被DDR5 64GB RDIMM反超,导致HBM利润率低于传统DRAM。供应商将据此调整产能分配,预计2027年HBM4合约价将大幅上涨。NVIDIA Rubin Ultra与AI ASIC需求将进一步加剧HBM供应紧张。
Arm与NVIDIA联手推出RTX Spark:Agentic AI PC架构从x86转向Arm+GPU紧耦合
Arm与NVIDIA合作推出的RTX Spark采用Arm Grace CPU与Blackwell RTX GPU通过统一内存紧密耦合,专为Agentic AI时代设计,提供超低延迟本地推理能力。该平台标志着Windows on Arm生态的重大突破,旨在满足开发者、创作者和游戏玩家的高性能AI计算需求。
Arm与NVIDIA联手推出RTX Spark:统一内存架构重塑Agentic PC生态,合围x86阵营
Arm与NVIDIA合作推出基于Arm Grace CPU和Blackwell RTX GPU的RTX Spark平台,采用统一内存架构,专为Windows on Arm生态下的Agentic AI推理设计。该平台提供1 Petaflop算力,显著降低token处理成本,标志着PC从应用驱动向Agent驱动的根本转变,并得到微软的全面支持。
NVIDIA DGX Spark更新:一键部署本地AI代理,多节点集群扩展至400B模型
NVIDIA在Computex 2026发布DGX Spark软件更新,包括NemoClaw一键安装本地AI代理、Qwen3.6-35B模型在vLLM上实现2.6倍性能提升、以及Sync集群助手支持2-4节点通过ConnectX-7 200Gbps RoCE高速互联,使本地运行大规模自主代理和多节点分布式推理成为可能。
思科AI Defense升级:以Agent供应链安全为名,行平台锁定之实
思科发布AI Defense重大更新,聚焦AI Agent安全,引入自适应红队测试、策略工作室(Policy Studio)和自动Agent依赖图扫描。新功能旨在实现跨平台(AWS Bedrock、Google ADK、LangChain)的上下文感知保护,但深度绑定Cisco Secure AI Factory与NVIDIA生态,隐藏了性能开销和迁移成本。