AWS与谷歌开放自研AI芯片,ASIC出货增速首超GPU,TCO拐点已至
内容摘要
核心要点
2026年第二季度,ASIC芯片领域迎来密集战略发布。亚马逊AWS于6月18日确认洽谈向其他公司数据中心出售其自研Trainium芯片,AWS AI业务负责人Peter DeSantis证实这一计划。Anthropic已承诺部署超过100万颗Trainium芯片,签约高达5GW的芯片容量。亚马逊CEO Andy Jassy在4月致股东信中暗示,如果芯片业务作为独立实体,年收入将达到约500亿美元,目前内部芯片部门年收入运行率已突破200亿美元。
谷歌TPU方面,5月宣布与黑石集团成立合资公司"TPU Cloud",黑石初始承诺出资50亿美元(含杠杆最高可达250亿美元)。这是TPU诞生十年来,首次在Google Cloud体系外进行大规模商业化销售。该项目目标2027年上线约500MW容量的AI数据中心。
TrendForce最新预测显示,2026年定制AI芯片出货量将实现44.6%的增长,而同期商用GPU出货量增速为16.1%。这是AI时代开启以来,定制芯片出货增速首次显著超过通用GPU。Semianalysis和Bernstein研究估计,大规模推理部署中ASIC相比通用GPU的总拥有成本优势达40%至65%。AI图像生成平台Midjourney在迁移至谷歌TPU后,月度计算成本从210万美元降至70万美元。
重要性说明
表面上看,AWS和谷歌开放自研芯片是满足客户对高性价比AI算力的需求,但本质上是两大云巨头在合围NVIDIA,试图削弱其GPU生态的绝对控制权。通过将Trainium和TPU外销,AWS和谷歌正在将AI算力从通用GPU的"标准化商品"转向锁定云厂商专有软件栈的定制化平台。企业一旦采用Trainium或TPU,就会被绑定在AWS Neuron SDK或Google Cloud TPU软件生态中,失去跨平台可移植性。
原文刻意淡化了ASIC在通用性上的致命短板:Trainium和TPU针对特定模型架构(如Transformer)高度优化,但在处理动态稀疏模型、多模态融合、强化学习等新兴工作负载时,性能可能远低于NVIDIA GPU。Midjourney的TPU迁移案例是精心挑选的——它高度适配TPU的矩阵计算单元。对于需要频繁切换模型架构的AI实验室,ASIC的硬件灵活性不足可能导致巨大的隐性迁移成本和性能损失。此外,ASIC的迭代周期长(通常18-24个月)远落后于GPU的12个月节奏,这意味着客户可能被锁定在落后一代的硬件上。
PRO 决策建议
【厂商】(竞争对手:NVIDIA、AMD、Intel等GPU厂商)应立刻启动针对性攻击营销,重点揭露ASIC在通用AI工作负载(如多模态、强化学习、动态图)上的性能短板,以及软件生态锁定风险。NVIDIA应加速开源其CUDA生态的部分组件(如cuDNN、TensorRT),降低客户迁移到ASIC的隐性成本,同时推出更低成本的推理GPU(如L40S系列)直接对标TCO。AMD应强调其ROCm开源特性和跨平台兼容性,作为ASIC锁定的替代方案。
【企业】CIO和架构师必须对ASIC外销进行零信任审计:要求供应商提供非优化工作负载的基准测试结果(如稀疏模型、多模态推理),并评估模型迁移成本(包括重新训练、算子适配、性能调优)。签订合同时应加入软件可移植性条款,确保未来可以无缝迁移到其他平台。同时建立多供应商采购策略,避免单一芯片供应商锁定。
【投资者】应重新评估NVIDIA的护城河深度。ASIC出货增速首超GPU是一个结构性风险信号,但NVIDIA的CUDA生态粘性和通用性优势仍将支撑其长期价值。关注NVIDIA是否通过软件开源或定制芯片合作(如与云厂商联合开发)来反击。同时关注AWS和谷歌的芯片毛利率——外销可能降低其云业务利润率,但能扩大TAM。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)