inference - AI Infrastructure Intelligence Search

AMD | Other |

AMD与Liquid AI探讨从芯片到系统的高效AI架构

AMD CTO与Liquid AI CEO探讨AI架构演进，强调效率是AI从云端向边缘和终端设备扩展的关键。双方认为，通过从芯片到系统的协同设计，可实现低功耗、高响应性的AI推理，支持持续运行的智能体与多模型协同。

2026-04-29 14:51

NVIDIA | Other |

英伟达发布Nemotron 3 Nano Omni统一多模态模型，瞄准AI Agent感知层

英伟达发布开源多模态模型Nemotron 3 Nano Omni，采用30B-A3B混合MoE架构，将视觉、音频与语言处理统一于单一模型，旨在作为AI Agent的“眼睛和耳朵”。该模型声称能消除多模型协作的延迟与上下文碎片化问题，在保持交互性的同时实现高达9倍的吞吐量提升，降低AI Agent的部署与推理成本。

2026-04-29 00:00

Cisco | Other |

思科借硬件更新周期推动AI就绪数据中心架构

思科通过博客指出，企业AI战略受阻的核心在于数据中心基础设施。其主张将AI就绪性融入常规硬件更新周期，强调通过统一运营、网络内嵌安全、端到端可观测性及高性能网络来构建AI基础设施。

2026-04-28 23:00

Microsoft | Other |

微软发布Azure Local大规模扩展，支持主权私有云部署数千节点

微软宣布Azure Local平台现可支持在单一主权边界内部署数千台服务器，为大规模主权私有云提供基础设施。该平台支持在连接、间歇连接或完全断开的环境下运行，并集成了英特尔Xeon 6处理器等硬件，旨在满足国家基础设施、受监管工作负载和本地AI推理对规模、控制与合规性的综合需求。

2026-04-28 00:00

AMD | Other |

AMD将边缘AI架构扩展至太空，定义轨道计算新范式

AMD CTO提出将地面边缘AI的“性能功耗比”与“任务关键可靠性”核心原则，应用于太空计算场景。公司正通过异构计算、开放软件栈和模块化系统设计，为从卫星在轨智能到未来轨道数据中心提供可重复构建的平台基础。

2026-04-27 23:22

AMD | Other |

AMD发布IDC白皮书，强调AI PC是企业部署Agentic AI的关键基础设施

AMD发布IDC白皮书，指出超过80%的企业正在规划、试点或部署AI PC，以支持Agentic AI的规模化应用。报告强调，高性能NPU和端侧AI处理对于实现实时、安全的工作流至关重要，标志着企业AI基础设施正从云端向端侧扩展。

2026-04-27 21:44

NVIDIA | Other |

英伟达内部规模化部署GPT-5.5驱动AI代理，定义企业AI基础设施新范式

英伟达宣布其超过1万名员工已通过Codex应用，在基于GB200 NVL72的NVIDIA基础设施上规模化使用GPT-5.5。此举不仅展示了前沿模型推理在企业内部工作流中实现‘变革性’生产力的技术可行性，更通过专用的安全云VM架构，为企业部署AI代理提供了可审计、隔离的参考范式。

2026-04-24 02:57

NVIDIA | Other |

NVIDIA与Google Cloud深化合作，构建面向AI工厂与物理AI的云基础设施

NVIDIA与Google Cloud宣布合作升级，推出基于Vera Rubin和Blackwell GPU的新实例，旨在构建支持近百万GPU集群的“AI工厂”，并整合Gemini、Nemotron等模型平台，加速从智能体到物理AI（如机器人、数字孪生）的生产级部署。

2026-04-22 20:00

Anthropic | Other |

Anthropic与AWS签署千亿美元协议锁定未来十年AI算力

Anthropic与亚马逊AWS签署新协议，承诺未来十年投入超1000亿美元，锁定高达5吉瓦的AI算力容量，并计划将Claude平台深度集成至AWS。此举旨在应对其AI模型Claude的爆炸性需求增长，并巩固其作为AWS上关键AI模型提供商的地位。

2026-04-21 04:05

Cisco | Other |

思科携手英伟达，将网络升级为AI媒体处理的控制平面

思科与英伟达深化合作，推出基于开放标准MXL的验证设计方案。该方案将思科IP媒体架构与英伟达Holoscan平台整合，使网络从传输层演变为支持实时AI推理的主动处理层，为广电行业实现低延迟、多语言的实时AI媒体生产。

2026-04-16 23:00

Microsoft | Other |

微软提前启用Fairwater超大规模AI数据中心，定义AI基础设施新标准

微软宣布其位于威斯康星州的Fairwater数据中心提前投入运营。该中心被定位为全球最强大的AI数据中心，集成了数十万个NVIDIA GB200 GPU，通过大规模光纤互连构成单一无缝集群，旨在为下一代AI模型训练和推理提供前所未有的算力规模。

2026-04-16 21:21

NVIDIA | Other |

英伟达推动AI基础设施评估指标从FLOPS转向每token成本

英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出，涉及硬件、软件、网络的全栈优化，以降低企业AI推理的总拥有成本。

2026-04-15 23:00

Cisco | Other |

思科联合工业自动化厂商，推动工厂边缘成为统一AI计算平台

思科在汉诺威工业展上联合罗克韦尔自动化等厂商，提出工厂边缘正演变为一个集成了控制、可视化与AI推理的统一计算平台。其核心是通过Cisco Unified Edge架构，将传统孤立的PLC、HMI、SCADA与AI工作负载（如视觉检测、预测性维护）整合，实现从洞察到实时闭环行动的转变。

2026-04-14 21:01

Meta | Other |

Meta与Broadcom达成多年2nm AI芯片合作，初始部署超1GW

Meta与Broadcom宣布多年多代战略合作，共同开发MTIA（Meta Training and Inference Accelerator）芯片，合作延续至2029年。首批部署超过1GW，后续扩展至数吉瓦级别。这是业界首个2nm工艺AI计算加速器，基于Broadcom XPU平台深度定制。Meta已规划MTIA 300/400/450/500四个迭代版本，主要用于推荐算法、内容排序和大规模AI推理。Broadcom CEO陈福阳将退出Meta董事会以规避利益关联，转为战略顾问。

2026-04-14 00:00

Intel | Other |

英特尔联合诺基亚与戴尔推出面向远边缘的UPF专用设备

英特尔、诺基亚与戴尔在MWC 2026上预展了一款基于英特尔至强6 SoC的远边缘UPF设备。该方案旨在为电信运营商在空间与功耗受限的远边缘环境提供高性能、低功耗的5G核心网用户面处理能力，并集成了AI功能。

2026-04-13 22:00

Intel | Other |

英特尔与谷歌深化合作，共同定义异构AI基础设施核心

英特尔与谷歌宣布多年期合作，旨在共同推进下一代AI与云基础设施。核心是强化CPU和定制IPU在异构AI系统中的中心地位，通过多代Xeon处理器优化性能与能效，并扩展基于ASIC的IPU联合开发，以提升超大规模AI环境下的效率与可预测性。

2026-04-09 21:00

Intel | Other |

英特尔与谷歌深化合作，共推CPU与IPU异构AI基础设施

英特尔与谷歌宣布多年期合作，旨在通过多代至强处理器和联合开发定制IPU，共同推进下一代AI与云基础设施。此举强化了CPU在AI系统编排与数据处理中的核心作用，以及IPU在卸载网络、存储任务以提升超大规模AI环境效率的关键价值。

2026-04-09 21:00

Intel | Other |

英特尔与SambaNova联合发布面向Agentic AI的异构推理架构

英特尔与SambaNova宣布合作，为Agentic AI生产负载设计异构计算蓝图。该方案结合GPU、SambaNova RDU和英特尔至强6处理器，旨在解决性能、效率与软件兼容性挑战，预计2026年下半年推出。

2026-04-08 23:04

ARM | Other |

Arm与马来西亚莫纳什大学合作，推进AI时代半导体人才培养

Arm宣布与马来西亚莫纳什大学工程学院合作，捐赠集成电路设计开发板并派遣高管担任客座讲师，旨在为AI时代培养具备Arm架构和现代系统设计实践经验的半导体人才。

2026-04-07 18:08

NVIDIA | Other |

NVIDIA推动物理AI在机器人领域的技术整合

NVIDIA在机器人周展示物理AI技术突破，通过Isaac Sim模拟平台和Jetson Orin边缘模块加速农业机器人部署。案例显示Aigen利用合成数据训练和开放世界基础模型，实现太阳能机器人精准除草，降低90%除草剂依赖。

2026-04-05 01:00

ARM | Other |

ARM联合Google优化Gemma 4设备端AI性能

ARM通过Armv9架构的SME2技术加速Google Gemma 4模型在移动设备的运行，实现5.5倍预填充加速和1.6倍解码提速。该合作使开发者无需修改代码即可获得性能优化，推动设备端AI成为移动应用默认架构，降低云端依赖。

2026-04-03 00:26

NVIDIA | Other |

英伟达联合谷歌优化Gemma 4，强化本地AI代理基础设施

英伟达宣布与谷歌合作，针对其RTX、DGX Spark及Jetson平台，对Gemma 4系列开源模型进行深度优化。此举旨在将高性能、多模态AI推理能力从云端扩展至边缘设备和个人工作站，为本地AI代理（Agentic AI）提供从2B到31B参数的全栈模型支持。

2026-04-03 00:15

NVIDIA | Other |

NVIDIA 优化 Gemma 4 模型以加速本地代理 AI

NVIDIA 与 Google 合作优化 Gemma 4 系列模型，使其能够在从边缘设备到高性能 GPU 的各种 NVIDIA 硬件上高效运行。这些模型支持多种任务，包括推理、编码和代理功能，适用于本地代理 AI 应用。

2026-04-03 00:15

Google | Other |

谷歌为Gemini API引入Flex与Priority推理层级

谷歌为其Gemini API新增Flex和Priority两个服务层级。Flex是成本优化层级，为延迟容忍型工作负载提供同步接口，价格降低50%；Priority为高可靠性层级，确保关键应用在高峰期的请求不被抢占。此举旨在通过单一界面，让开发者根据AI任务类型（如后台Agent思考与前台交互）灵活平衡成本与可靠性。

2026-04-03 00:00

Google | Other |

谷歌发布Gemma 4开源模型，瞄准边缘推理与AI代理架构

谷歌推出Gemma 4开源模型家族，包含从2B到31B的四个版本，强调单位参数性能突破，并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化，旨在将前沿推理能力扩展至移动与IoT场景。

2026-04-03 00:00

Google | Other |

Google为Gemini API推出Flex和Priority推理层级

Google在其Gemini API中新增Flex和Priority两个服务层级，允许开发者通过单一接口优化成本和可靠性。Flex针对延迟容忍型工作负载提供50%的成本节约，而Priority则为关键应用提供最高可靠性保障。这一变化简化了AI代理架构中同步和异步任务的管理。

2026-04-03 00:00

Google | Other |

Google发布Gemma 4开源模型系列

Google推出Gemma 4开源模型系列，包含四种规模变体，特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言，采用Apache 2.0许可。

2026-04-03 00:00

Cisco | Other |

思科推出AI就绪宽带解决方案应对边缘计算挑战

思科发布Agile Services Networking和Unified Edge平台，旨在帮助宽带服务提供商应对AI带来的带宽激增和低延迟需求。该方案通过在网络边缘部署计算和推理能力，减少核心网络负载，并支持智能流量优先级管理。

2026-04-02 23:00

AMD | Other |

AMD发布突破性MLPerf 6.0推理结果，展示多节点扩展与多模态能力

AMD在MLPerf Inference 6.0基准测试中，凭借Instinct MI355X GPU在Llama 2 70B和GPT-OSS-120B模型上首次突破每秒100万令牌的推理吞吐量。其提交强调了多节点扩展效率、对新型文本到视频模型（Wan-2.2-t2v）的快速启用，以及广泛的合作伙伴生态系统复现结果。

2026-04-02 18:03

AMD | Other |

AMD 在 MLPerf 推理测试中取得突破性成绩

AMD 宣布其 Instinct MI300X 加速器在 MLPerf Inference 6.0 基准测试中表现优异，特别是在自然语言处理任务上创下新纪录。这表明 AMD 在 AI 推理基础设施领域的技术竞争力显著提升。

2026-04-02 06:07

Reports

AMD与Liquid AI探讨从芯片到系统的高效AI架构

英伟达发布Nemotron 3 Nano Omni统一多模态模型，瞄准AI Agent感知层

思科借硬件更新周期推动AI就绪数据中心架构

微软发布Azure Local大规模扩展，支持主权私有云部署数千节点

AMD将边缘AI架构扩展至太空，定义轨道计算新范式

AMD发布IDC白皮书，强调AI PC是企业部署Agentic AI的关键基础设施

英伟达内部规模化部署GPT-5.5驱动AI代理，定义企业AI基础设施新范式

NVIDIA与Google Cloud深化合作，构建面向AI工厂与物理AI的云基础设施

Anthropic与AWS签署千亿美元协议锁定未来十年AI算力

思科携手英伟达，将网络升级为AI媒体处理的控制平面

微软提前启用Fairwater超大规模AI数据中心，定义AI基础设施新标准

英伟达推动AI基础设施评估指标从FLOPS转向每token成本

思科联合工业自动化厂商，推动工厂边缘成为统一AI计算平台

Meta与Broadcom达成多年2nm AI芯片合作，初始部署超1GW

英特尔联合诺基亚与戴尔推出面向远边缘的UPF专用设备

英特尔与谷歌深化合作，共同定义异构AI基础设施核心

英特尔与谷歌深化合作，共推CPU与IPU异构AI基础设施

英特尔与SambaNova联合发布面向Agentic AI的异构推理架构

Arm与马来西亚莫纳什大学合作，推进AI时代半导体人才培养

NVIDIA推动物理AI在机器人领域的技术整合

ARM联合Google优化Gemma 4设备端AI性能

英伟达联合谷歌优化Gemma 4，强化本地AI代理基础设施

NVIDIA 优化 Gemma 4 模型以加速本地代理 AI

谷歌为Gemini API引入Flex与Priority推理层级

谷歌发布Gemma 4开源模型，瞄准边缘推理与AI代理架构

Google为Gemini API推出Flex和Priority推理层级

Google发布Gemma 4开源模型系列

思科推出AI就绪宽带解决方案应对边缘计算挑战

AMD发布突破性MLPerf 6.0推理结果，展示多节点扩展与多模态能力

AMD 在 MLPerf 推理测试中取得突破性成绩