Reports
AI-generated structured vendor updates
英伟达发布Nemotron 3 Nano Omni统一多模态模型,瞄准AI Agent感知层
英伟达发布开源多模态模型Nemotron 3 Nano Omni,采用30B-A3B混合MoE架构,将视觉、音频与语言处理统一于单一模型,旨在作为AI Agent的“眼睛和耳朵”。该模型声称能消除多模型协作的延迟与上下文碎片化问题,在保持交互性的同时实现高达9倍的吞吐量提升,降低AI Agent的部署与推理成本。
Anthropic 9000亿估值背后:跨云算力布局如何重塑企业AI采购的厂商锁定风险
Anthropic以9000亿估值融资背后是三云算力布局策略,企业使用Claude实际在同时绑定AWS、Google、NVIDIA三方,厂商锁定风险从单云升级为跨云架构级锁定
Arm发布Performix性能分析工具包,瞄准AI Agent时代优化
Arm发布免费性能分析工具包Performix,旨在为AI Agent开发提供跨Arm平台的统一性能洞察与优化。该工具通过Arm MCP Server集成至主流AI开发环境,将硬件运行时数据转化为可操作的优化建议,并已获得微软、MongoDB等生态伙伴支持。
微软将GPT-5.5集成至企业级Copilot,推动多模型工作流编排
微软宣布将GPT-5.5模型部署至GitHub Copilot、Microsoft 365 Copilot、Copilot Studio及Foundry平台。该更新强调多模型编排,允许用户根据任务(如快速探索、深度推理、执行、审查)选择不同模型,并通过‘橡皮鸭’代理实现多模型反思循环。
Google Cloud Next 2026:Ironwood TPU + $750M Agent Fund
Google在Cloud Next 2026大会上发布第七代TPU Ironwood,峰值算力达42.5 ExaFLOPS,较前代提升10倍。同时宣布7.5亿美元Agent Fund,投资AI智能体生态。主权AI战略成为核心叙事,推出Ironpod超级计算机方案满足政府数据主权需求。
英伟达内部规模化部署GPT-5.5驱动AI代理,定义企业AI基础设施新范式
英伟达宣布其超过1万名员工已通过Codex应用,在基于GB200 NVL72的NVIDIA基础设施上规模化使用GPT-5.5。此举不仅展示了前沿模型推理在企业内部工作流中实现‘变革性’生产力的技术可行性,更通过专用的安全云VM架构,为企业部署AI代理提供了可审计、隔离的参考范式。
微软将Office Copilot代理模式设为默认,推动AI原生工作流
微软宣布Copilot在Word、Excel和PowerPoint中的“代理模式”正式上市并设为默认。该模式允许AI直接在文档画布上进行推理和多步骤操作,标志着从辅助工具到嵌入式AI协作者的转变。
Google Cloud Next 26开幕:发布Agentic Cloud战略
Google Cloud Next 26开幕,发布企业级Agentic AI全栈。
Google全域算力池化:资源利用率从35%提升至85%
Google发布全域算力池化技术,资源利用率从35%提升至85%+,成本降低40%+,支持跨区域、跨云厂商资源整合。
Google TPU v8发布:单集群算力突破40 ExaFLOPS
Google发布TPU v8芯片,单集群算力达40+ ExaFLOPS,支持百万级Agent并发,算力密度提升3倍,能效比提升2倍。
思科发布OT安全入门框架,强调经济性与可执行性
思科发布工业OT安全入门框架,针对中型企业资源有限现状,提出分阶段、低成本的实施路径。核心是避免因过度依赖SPAN端口等被动监控架构而产生高昂的隐性基础设施成本,转而利用现有网络设备(如支持Cyber Vision的交换机)实现初步可见性。
Anthropic发布Claude Design,整合AI视觉与设计工作流
Anthropic推出Claude Design,通过其最强视觉模型Claude Opus 4.7驱动,允许用户协作创建设计、原型和演示文稿等。该产品面向企业团队,支持从代码库自动构建品牌设计系统,并能将设计无缝移交给Claude Code进行开发。
微软提前启用Fairwater超大规模AI数据中心,定义AI基础设施新标准
微软宣布其位于威斯康星州的Fairwater数据中心提前投入运营。该中心被定位为全球最强大的AI数据中心,集成了数十万个NVIDIA GB200 GPU,通过大规模光纤互连构成单一无缝集群,旨在为下一代AI模型训练和推理提供前所未有的算力规模。
Anthropic发布Claude Opus 4.7并引入网络安全护栏
Anthropic正式发布Claude Opus 4.7模型,在复杂软件工程、多模态理解和长时推理任务上实现显著提升。该版本首次引入了针对高风险网络安全用途的自动检测与拦截护栏,并为安全研究设立了验证程序,旨在为更强大模型(如Mythos)的广泛发布积累安全经验。
英伟达推动AI基础设施评估指标从FLOPS转向每token成本
英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出,涉及硬件、软件、网络的全栈优化,以降低企业AI推理的总拥有成本。
微软发布高效AI图像模型,成本降低41%并瞄准规模化生产
微软发布MAI-Image-2-Efficient模型,在保持旗舰级质量的同时,推理速度提升22%,效率提升4倍,成本降低41%。该模型定位为规模化生产“主力”,已集成至Microsoft Foundry和Copilot,旨在降低企业AI应用门槛。
瑞银上调博通TPU出货量预测,2027年达700万颗
瑞银因博通与谷歌、Anthropic的合作进展,将博通2027年TPU出货量预测从600万颗上调至700万颗,同步上调未来三年营收、盈利等多项指标预测。印证千兆瓦级TPU合作的真实市场需求。
Anthropic 千兆瓦级 TPU 合作,算力门槛进核电时代
Anthropic 与 Google、Broadcom 达成多个千兆瓦级下一代 TPU 算力合作协议,预计 2027 年上线支持前沿 Claude 模型训练。年化营收突破 300 亿美元(约三个月增长 3 倍),AI 基础设施投资门槛正式进入核电站级别。
思科阐述AI Agent框架如何重塑网络运维架构
思科通过博客详细阐述了AI Agentic框架在网络工程中的应用,提出从聊天机器人到多步工作流编排的演进路径。其核心在于将人类专业知识编码为‘技能’文件,通过MCP协议连接基础设施API,并在关键步骤设置人工审批点,实现从任务执行到流程编排的角色转变。
思科分享企业AI助手实战模式,强调确定性安全与引导式交互
思科基于其客户体验部门AI助手的18个月实战经验,提炼出决定企业AI系统成败的非显性模式。核心包括:通过确定性代码而非LLM提示词执行RBAC、主动解决企业术语歧义、减少澄清式交互以提升效率,以及基于系统能力提供引导式后续问题。
思科宣布收购Galileo,强化AI Agent全生命周期可观测性
思科宣布计划收购专注于AI可观测性的初创公司Galileo。此举旨在将Galileo的AI质量评估、故障检测与护栏技术深度集成至Splunk可观测性云平台,为企业的AI Agent系统提供从开发到生产的全生命周期可见性与安全保障。
Cisco推广多元化增长杠杆策略
Cisco首席战略官提出企业需超越传统Build vs Buy二元决策,采用系统化增长策略。公司定义五个杠杆:内部开发、并购、合作、投资和孵化,强调生态系统协作以加速创新和市场响应。
Anthropic与Mozilla合作,AI模型可独立发现Firefox高危漏洞
Anthropic宣布其Claude Opus 4.6模型在两周内为Mozilla Firefox发现了22个漏洞,其中14个被定为高危。这标志着AI模型已能独立识别复杂软件中的未知安全漏洞,并初步尝试生成漏洞利用,预示AI在网络安全攻防两端的能力均进入新阶段。
Anthropic联合谷歌与博通锁定千兆瓦级下一代TPU算力
Anthropic宣布与谷歌及博通达成新协议,锁定数千兆瓦的下一代TPU算力,预计2027年上线。此举旨在支撑其前沿Claude模型的训练与推理,并满足全球客户激增的需求。该合作是Anthropic对美国计算基础设施500亿美元投资承诺的重大扩展。
微软发布Copilot Studio多智能体系统,推动企业AI架构互联
微软宣布Copilot Studio的多智能体系统全面上市,核心是通过开放协议(A2A)、与Fabric及Microsoft 365 Agents SDK的集成,实现跨工具、跨数据源的智能体协同编排。此举旨在将孤立的AI体验转变为可规模化协作的智能体系统,并增强了提示构建与治理控制。
谷歌为Gemini API引入Flex与Priority推理层级
谷歌为其Gemini API新增Flex和Priority两个服务层级。Flex是成本优化层级,为延迟容忍型工作负载提供同步接口,价格降低50%;Priority为高可靠性层级,确保关键应用在高峰期的请求不被抢占。此举旨在通过单一界面,让开发者根据AI任务类型(如后台Agent思考与前台交互)灵活平衡成本与可靠性。
谷歌发布Gemma 4开源模型,瞄准边缘推理与AI代理架构
谷歌推出Gemma 4开源模型家族,包含从2B到31B的四个版本,强调单位参数性能突破,并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化,旨在将前沿推理能力扩展至移动与IoT场景。
Google为Gemini API推出Flex和Priority推理层级
Google在其Gemini API中新增Flex和Priority两个服务层级,允许开发者通过单一接口优化成本和可靠性。Flex针对延迟容忍型工作负载提供50%的成本节约,而Priority则为关键应用提供最高可靠性保障。这一变化简化了AI代理架构中同步和异步任务的管理。
Google发布Gemma 4开源模型系列
Google推出Gemma 4开源模型系列,包含四种规模变体,特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言,采用Apache 2.0许可。
AMD发布突破性MLPerf 6.0推理结果,展示多节点扩展与多模态能力
AMD在MLPerf Inference 6.0基准测试中,凭借Instinct MI355X GPU在Llama 2 70B和GPT-OSS-120B模型上首次突破每秒100万令牌的推理吞吐量。其提交强调了多节点扩展效率、对新型文本到视频模型(Wan-2.2-t2v)的快速启用,以及广泛的合作伙伴生态系统复现结果。