inference - AI基础设施情报搜索

Intel 其他强信号 2026-04-09

英特尔与谷歌深化合作，共同定义异构AI基础设施核心

英特尔与谷歌宣布多年期合作，旨在共同推进下一代AI与云基础设施。核心是强化CPU和定制IPU在异构AI系统中的中心地位，通过多代Xeon处理器优化性能与能效，并扩展基于ASIC的IPU联合开发，以提升超大规模AI环境下的效率与可预测性。

Intel 其他强信号 2026-04-09

英特尔与谷歌深化合作，共推CPU与IPU异构AI基础设施

英特尔与谷歌宣布多年期合作，旨在通过多代至强处理器和联合开发定制IPU，共同推进下一代AI与云基础设施。此举强化了CPU在AI系统编排与数据处理中的核心作用，以及IPU在卸载网络、存储任务以提升超大规模AI环境效率的关键价值。

Intel 其他强信号 2026-04-08

英特尔与SambaNova联合发布面向Agentic AI的异构推理架构

英特尔与SambaNova宣布合作，为Agentic AI生产负载设计异构计算蓝图。该方案结合GPU、SambaNova RDU和英特尔至强6处理器，旨在解决性能、效率与软件兼容性挑战，预计2026年下半年推出。

ARM 其他 2026-04-07

Arm与马来西亚莫纳什大学合作，推进AI时代半导体人才培养

Arm宣布与马来西亚莫纳什大学工程学院合作，捐赠集成电路设计开发板并派遣高管担任客座讲师，旨在为AI时代培养具备Arm架构和现代系统设计实践经验的半导体人才。

NVIDIA 其他强信号 2026-04-05

NVIDIA推动物理AI在机器人领域的技术整合

NVIDIA在机器人周展示物理AI技术突破，通过Isaac Sim模拟平台和Jetson Orin边缘模块加速农业机器人部署。案例显示Aigen利用合成数据训练和开放世界基础模型，实现太阳能机器人精准除草，降低90%除草剂依赖。

ARM 其他强信号 2026-04-03

ARM联合Google优化Gemma 4设备端AI性能

ARM通过Armv9架构的SME2技术加速Google Gemma 4模型在移动设备的运行，实现5.5倍预填充加速和1.6倍解码提速。该合作使开发者无需修改代码即可获得性能优化，推动设备端AI成为移动应用默认架构，降低云端依赖。

NVIDIA 其他强信号 2026-04-03

英伟达联合谷歌优化Gemma 4，强化本地AI代理基础设施

英伟达宣布与谷歌合作，针对其RTX、DGX Spark及Jetson平台，对Gemma 4系列开源模型进行深度优化。此举旨在将高性能、多模态AI推理能力从云端扩展至边缘设备和个人工作站，为本地AI代理（Agentic AI）提供从2B到31B参数的全栈模型支持。

NVIDIA 其他中信号 2026-04-03

NVIDIA 优化 Gemma 4 模型以加速本地代理 AI

NVIDIA 与 Google 合作优化 Gemma 4 系列模型，使其能够在从边缘设备到高性能 GPU 的各种 NVIDIA 硬件上高效运行。这些模型支持多种任务，包括推理、编码和代理功能，适用于本地代理 AI 应用。

Google 其他强信号 2026-04-03

谷歌为Gemini API引入Flex与Priority推理层级

谷歌为其Gemini API新增Flex和Priority两个服务层级。Flex是成本优化层级，为延迟容忍型工作负载提供同步接口，价格降低50%；Priority为高可靠性层级，确保关键应用在高峰期的请求不被抢占。此举旨在通过单一界面，让开发者根据AI任务类型（如后台Agent思考与前台交互）灵活平衡成本与可靠性。

Google 其他强信号 2026-04-03

谷歌发布Gemma 4开源模型，瞄准边缘推理与AI代理架构

谷歌推出Gemma 4开源模型家族，包含从2B到31B的四个版本，强调单位参数性能突破，并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化，旨在将前沿推理能力扩展至移动与IoT场景。

Google 其他中信号 2026-04-03

Google为Gemini API推出Flex和Priority推理层级

Google在其Gemini API中新增Flex和Priority两个服务层级，允许开发者通过单一接口优化成本和可靠性。Flex针对延迟容忍型工作负载提供50%的成本节约，而Priority则为关键应用提供最高可靠性保障。这一变化简化了AI代理架构中同步和异步任务的管理。

Google 其他中信号 2026-04-03

Google发布Gemma 4开源模型系列

Google推出Gemma 4开源模型系列，包含四种规模变体，特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言，采用Apache 2.0许可。

Cisco 其他中信号 2026-04-02

思科推出AI就绪宽带解决方案应对边缘计算挑战

思科发布Agile Services Networking和Unified Edge平台，旨在帮助宽带服务提供商应对AI带来的带宽激增和低延迟需求。该方案通过在网络边缘部署计算和推理能力，减少核心网络负载，并支持智能流量优先级管理。

AMD 其他强信号 2026-04-02

AMD发布突破性MLPerf 6.0推理结果，展示多节点扩展与多模态能力

AMD在MLPerf Inference 6.0基准测试中，凭借Instinct MI355X GPU在Llama 2 70B和GPT-OSS-120B模型上首次突破每秒100万令牌的推理吞吐量。其提交强调了多节点扩展效率、对新型文本到视频模型（Wan-2.2-t2v）的快速启用，以及广泛的合作伙伴生态系统复现结果。

AMD 其他中信号 2026-04-02

AMD 在 MLPerf 推理测试中取得突破性成绩

AMD 宣布其 Instinct MI300X 加速器在 MLPerf Inference 6.0 基准测试中表现优异，特别是在自然语言处理任务上创下新纪录。这表明 AMD 在 AI 推理基础设施领域的技术竞争力显著提升。

Intel 其他中信号 2026-04-01

英特尔在MLPerf推理测试中展示Xeon 6与Arc Pro GPU的AI性能

英特尔在MLPerf Inference v6.0基准测试中展示了其Xeon 6 CPU和Arc Pro B系列GPU的性能，特别是在处理大型语言模型（LLM）时的表现。测试结果显示，配备四块Arc Pro B70 GPU的系统能够处理120B参数的模型，并在多GPU设置中提供高达1.8倍的推理性能提升。

Google 其他强信号 2026-04-01

谷歌推出Gemini API Docs MCP与Agent Skills优化AI编码代理

谷歌发布Gemini API Docs MCP协议和Agent Skills工具集，通过实时连接最新API文档与注入最佳实践指令，解决AI编码代理的过时代码问题。测试显示组合使用可使通过率提升至96.3%，同时降低63%的token消耗。

Cisco 其他强信号 2026-03-31

思科推出统一AI网络架构应对训练与推理流量冲突

思科提出统一AI网络架构解决方案，通过N9000系列交换机实现训练和推理流量的智能调度，解决传统双架构模式下的资源浪费问题。该方案包含硅级低延迟支持、实时遥测和自动化策略调整能力，瞄准新兴云服务商的平台化转型需求。

ARM 其他强信号 2026-03-27

Arm首次推出自研AGI CPU，进军数据中心硅产品市场

Arm宣布其计算平台首次扩展至生产级硅产品，推出自研的Arm AGI CPU，专为AI数据中心和Agentic AI工作负载设计。该CPU旨在提供远超x86平台的每机架性能与能效，并已获得Meta、OpenAI等关键客户及广泛OEM/ODM生态支持。

NVIDIA 其他强信号 2026-03-26

NVIDIA推出物理AI数据工厂蓝图，将计算转化为合成数据

NVIDIA在GTC上发布物理AI数据工厂蓝图，这是一个将计算转化为大规模高质量合成训练数据的开放参考架构。它基于Cosmos世界模型和OSMO操作器，旨在解决真实世界数据难以规模化获取和处理的瓶颈，为下一代自主系统和机器人提供数据引擎。

情报

筛选