MoE - AI基础设施情报搜索

Apple 合作伙伴强信号 2026-04-27

Apple与Google达成多年期合作，Gemini将成Siri新大脑

Apple与Google达成多年期合作，Google Cloud成为Apple首选云服务商。Google正为Apple构建1.2万亿参数的定制Gemini模型，是当前Apple云端模型的8倍。Siri将在2026年获得Gemini能力，随iOS 27在秋季发布。隐私架构保持不变——Gemini模型运行在Apple自有服务器，Google不得使用Apple数据训练。设备兼容性限制意味着数亿老款iPhone用户被排除在外。

NVIDIA 其他强信号 2026-04-15

英伟达推动AI基础设施评估指标从FLOPS转向每token成本

英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出，涉及硬件、软件、网络的全栈优化，以降低企业AI推理的总拥有成本。

Google 其他强信号 2026-04-03

谷歌发布Gemma 4开源模型，瞄准边缘推理与AI代理架构

谷歌推出Gemma 4开源模型家族，包含从2B到31B的四个版本，强调单位参数性能突破，并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化，旨在将前沿推理能力扩展至移动与IoT场景。

Google 其他中信号 2026-04-03

Google发布Gemma 4开源模型系列

Google推出Gemma 4开源模型系列，包含四种规模变体，特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言，采用Apache 2.0许可。

NVIDIA 其他强信号 2026-03-12

英伟达发布Nemotron 3 Super，优化智能体AI推理架构

英伟达推出1200亿参数Nemotron 3 Super模型，采用混合MoE架构结合Mamba与Transformer层，实现5倍吞吐量提升。该模型专为多智能体工作流设计，支持100万令牌上下文窗口，解决任务目标漂移问题。通过开放权重和云服务部署，降低企业智能体应用门槛。

NVIDIA 其他 2025-06-01

NVIDIA RTX Spark与Nemotron-3 Ultra：端侧AI控制权从云端下沉至个人PC

NVIDIA在GTC Taipei 2026发布RTX Spark个人AI超级计算机（与联发科合作）及Nemotron-3 Ultra开源混合架构模型。RTX Spark搭载N1X芯片，提供1 PFLOPS本地AI算力，首次将大模型推理下沉至PC端，并重构软件生态。此举标志英伟达从云端GPU供应商转型为端侧AI基础设施垄断者。

Huawei 其他 1970-01-01

华为昇腾910C完成1.6万亿参数训练：国产算力首次突破MoE全流程

华为联合河套学院等机构，基于昇腾910C集群完成DeepSeek-V4-Pro（1.6万亿参数MoE架构）全参数后训练。核心数据：千卡集群稳定1500步，算力利用率30%，算子效率提升14%，全程无海外GPU依赖，标志着国产算力首次实现万亿级大模型完整训练闭环。

Research 其他 1970-01-01

智谱GLM-5.2开源：MIT协议744B MoE，以可下载模型对抗地缘政治禁运

智谱AI发布GLM-5.2，744B MoE仅40B激活参数，支持1M输入上下文和131K输出，采用MIT开源协议。时间点紧贴Anthropic Fable 5被美国政府强制下架，提供可下载、不可被禁的替代方案，兼容Anthropic API实现零代码迁移，旨在为企业提供技术主权选项。

NVIDIA 其他 1970-01-01

SGLang 0.5.13发布：MoE路由预判+稀疏缓存，GB300 NVL72推理性能飙升25倍

SGLang 0.5.13版本引入两阶段MoE路由预判和稀疏KV缓存，在NVIDIA GB300 NVL72平台实现25倍推理加速。实测显示，在A100上吞吐量提升65%，延迟降低40%，路由开销锐减62%。该优化直击MoE模型推理瓶颈，有望重塑AI推理部署的经济性。

情报

筛选