情报
AI 生成的结构化厂商动态简报
Subquadratic 声称突破二次注意力瓶颈:独立基准验证长上下文速度提升52倍
迈阿密初创公司 Subquadratic 发布独立基准测试,证实其 SubQ 模型使用 Subquadratic Sparse Attention (SSA) 在 1M token 上下文下比 FlashAttention 快 52 倍,计算量减少高达 1000 倍。但架构透明度不足,怀疑是微调而非从头训练。
微软Copilot Cowork转向按量计费,引入DeepSeek重构AI模型生态
微软宣布其企业Agentic AI工具Copilot Cowork从不限量订阅转向按使用量计费(Copilot Credits),并探索引入微调后的DeepSeek V4或开源模型作为低成本选项,托管于Azure。此举旨在应对用户高频任务带来的高成本,同时推动多模型路线。
NVIDIA GB300 NVL72 AgentPerf基准测试:每兆瓦代理数提升20倍,定义AI推理新标准
NVIDIA GB300 NVL72在首个代理型AI基准测试AgentPerf中,运行DeepSeek V4 Pro模型,每兆瓦可处理多达20倍于H200的AI代理。该基准测试聚焦多步骤工具调用工作负载,揭示代理型AI对基础设施的新压力点,并推动行业向功耗效率优先的推理架构转型。
美国出口管制突袭Anthropic:Fable/Mythos模型全球访问被禁,AI地缘政治拐点到来
美国商务部以国家安全为由,暂停Anthropic的Fable 5和Mythos 5模型对全球外国国民的访问权限,包括Anthropic外籍员工。模型立即下线,Anthropic派员赴华盛顿谈判。此举可能开创AI模型出口管制先例,重塑全球AI服务供应链。
华为LogicFolding架构:以3D堆叠绕过制程封锁,重塑AI芯片竞争格局
华为提出Tau Scaling Law和LogicFolding架构,通过垂直堆叠逻辑单元实现晶体管密度提升55%、能效提升41%,并宣称2031年可达1.4nm等效。同时Ascend 920/910C芯片已用于训练DeepSeek V4-Pro模型,证明其AI芯片从理论走向实战,威胁Nvidia在华市场。
NVIDIA Blackwell MLPerf六连冠:NVLink与NVFP4定义AI训练新范式
NVIDIA在MLPerf Training 6.0中凭借Blackwell平台全面领先,首次提交所有7个基准测试,包括MoE模型。GB300 NVL72比GB200快1.6x,通过第五代NVLink实现72 GPU一体化,NVFP4低精度训练提升性能。展示了从单机到8192 GPU集群的线性扩展能力。
AMD收购MEXT:用AI预测让Flash逼近DRAM,降低AI内存TCO
AMD宣布收购AI内存优化初创公司MEXT,其核心技术利用AI预测模型使NAND Flash在延迟和吞吐量上逼近DRAM,旨在扩展AI服务器的有效内存容量,降低总拥有成本(TCO)。该技术将被整合进AMD数据中心全线产品,包括EPYC CPU和Instinct GPU,以应对大模型对内存的饥渴。
AMD通过Vultr开源AI软件组件,向NVIDIA CUDA生态发起生态重构挑战
AMD通过Vultr Marketplace发布开源、模块化的企业AI软件组件,包括AMD Inference Microservices (AIMs)、AI Workbench、Resource Manager和Solution Blueprints。该组合旨在提供生产级AI基础设施,避免单一厂商锁定,直接挑战NVIDIA的CUDA生态。
Z.ai GLM-5.2推可用1M Token上下文,无基准测试下挑战长文本推理极限
Z.ai发布GLM-5.2,宣称支持可用的1M token上下文窗口,并引入两种思考努力级别(Thinking-Effort Levels)。但未提供任何标准基准测试结果,引发对其实际性能与可用性的质疑。该模型旨在直接替代传统RAG分块检索流程,实现端到端长文本推理。
NVIDIA GB300 NVL72在Agentic AI基准测试中实现20倍能效跃升,定义新推理标准
NVIDIA在第三方AA-AgentPerf基准测试中,凭借GB300 NVL72的72 GPU NVLink域、MXFP4/MXFP8内核及MoE优化,实现每兆瓦并发agent数达H200的20倍。该基准首次标准化agentic推理性能度量,直接冲击数据中心容量规划。
NVIDIA推AgentPerf基准测试:Blackwell Ultra每瓦代理数较Hopper提升20倍
NVIDIA与Artificial Analysis联合发布首个Agentic AI基准测试AgentPerf,结果显示GB300 NVL72平台在运行DeepSeek V4 Pro等MoE模型时,每兆瓦可承载的并发代理数较HGX H200提升20倍。该基准模拟真实编码代理轨迹,测量端到端吞吐与响应延迟。
AMD携手戴尔与剑桥大学,以开放ROCm生态撬动英国主权AI算力基建
AMD联合戴尔和剑桥大学宣布建立英国主权AI创新实验室(SAIL),部署基于第五代EPYC和Instinct MI355X GPU的Zenith超级计算机,以及用于聚变能源研究的Sunrise系统。该实验室旨在推动开放、可互操作的AI基础设施,以ROCm软件栈为核心,对抗NVIDIA的CUDA生态锁定,为英国政府和研究机构提供长期技术选择。
NVIDIA Blackwell Ultra GB300 NVL72:FP4算力1.44 EFLOPS,AI工厂性能跃升50倍
NVIDIA发布Blackwell Ultra GB300 NVL72机架系统,集成72颗Blackwell Ultra GPU和36颗Grace CPU,FP4稀疏算力达1,440 PFLOPS,配备20TB HBM3e和130TB/s NVLink,相比Hopper AI工厂输出提升50倍,已上市。
思科开源AI模型血缘工具包,瞄准AI供应链安全治理层
思科发布开源工具Model Provenance Kit,通过分析模型元数据、分词器及权重信号,生成唯一指纹并比对,以技术手段验证AI模型的血缘关系与完整性,旨在应对模型供应链中存在的篡改、伪造及合规风险。
英伟达推动AI基础设施评估指标从FLOPS转向每token成本
英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出,涉及硬件、软件、网络的全栈优化,以降低企业AI推理的总拥有成本。
微软 Foundry 集成 Fireworks AI,强化开放模型推理平台
微软将 Fireworks AI 推理服务集成至 Microsoft Foundry 平台,提供高性能开放模型访问,支持按 token 付费和预置吞吐单元计费,并允许用户自带模型权重,简化企业级部署和运维。
思科基于DNS遥测揭示企业AI工具使用模式与安全风险
思科通过安全接入和DNS遥测数据分析企业生成式AI工具使用情况,发现ChatGPT占据主导地位且存在恶意域名伪装风险。该分析展示了基于网络流量监控的AI工具使用评估方法,为企业安全团队提供了可操作的技术路径。
NVIDIA将CUDA Tile编程模型扩展至Julia语言
NVIDIA通过cuTile.jl包将其CUDA Tile高级GPU编程模型引入Julia语言生态。此举旨在降低高性能GPU内核开发门槛,通过数据块抽象简化底层线程与内存管理,并保持与Python版本在语法和性能上的高度一致性。
华为昇腾910C完成1.6万亿参数训练:国产算力首次突破MoE全流程
华为联合河套学院等机构,基于昇腾910C集群完成DeepSeek-V4-Pro(1.6万亿参数MoE架构)全参数后训练。核心数据:千卡集群稳定1500步,算力利用率30%,算子效率提升14%,全程无海外GPU依赖,标志着国产算力首次实现万亿级大模型完整训练闭环。