OpenAI 2026-07-03
Technology Integration 影响: Major 置信: 90%

OpenAI通过系统优化将推理成本砍半,数百GPU支撑ChatGPT海量请求

内容摘要

OpenAI通过模型量化(FP16→INT4/INT8)、KV-Cache优化、动态批处理与投机解码等系统底层技术,将AI推理成本降低50%以上,仅用数百张NVIDIA GPU支撑ChatGPT未登录用户流量。推理毛利率从38%跃升至65%,实现接近盈亏平衡。

核心要点

据The Information 2026年6月30日报道,OpenAI工程师团队通过一系列系统底层优化技术,在不增加新芯片的情况下成功将AI模型推理成本降低50%以上。据报道,OpenAI仅使用数百张NVIDIA GPU就支撑起了ChatGPT未登录用户的全部流量,实现了显著的算力效率提升。此次优化涵盖了多个核心技术维度,包括模型量化压缩(FP16到INT4/INT8权重量化)、KV-Cache优化(缓存量化、共享前缀缓存、分层淘汰策略)、动态批处理与请求调度(连续批处理、优先级调度)、投机解码(草稿模型快速生成、大模型并行验证)以及并行与分布式计算优化。此前数据显示,2025年前三季度OpenAI收入43.3亿美元,但推理成本高达86.5亿美元,净亏损43.2亿美元。通过本次系统优化和自研Jalapeño芯片的落地,OpenAI的推理毛利率已从2024年的38%大幅提升至2026年第二季度的约65%,实现了从高亏损到接近盈亏平衡的关键转折。

重要性说明

OpenAI此举表面是工程效率突破,实则是对NVIDIA GPU依赖的战略防御。通过软件优化和自研Jalapeño芯片,OpenAI正在降低对NVIDIA硬件的议价权,同时将推理成本控制权牢牢握在自己手中。

这些优化(如投机解码、量化)本质上形成了隐性软件壁垒:其他厂商(如Anthropic、Google)若想达到同等效率,必须复制OpenAI的工程积累(包括模型架构适配、调度策略),而OpenAI的模型是闭源的,这使得竞争对手难以直接复用。

然而,原文故意淡化了物理限制:这些优化可能牺牲了模型质量(INT4量化导致精度损失)或增加了尾部延迟(投机解码的并行验证可能引入额外时延)。对于实时性要求高的场景(如语音助手、自动驾驶),这些trade-off可能不可接受。此外,数百GPU支撑海量请求的前提是用户流量特征(如未登录用户使用轻量模型),对于复杂推理任务(如代码生成、多模态),效率提升可能大打折扣。

PRO 决策建议

【厂商】Anthropic、Google、Meta应加速研发类似的系统级推理优化(如投机解码、KV-Cache量化),并考虑开源部分工程工具,以削弱OpenAI的软件护城河。同时,积极推动与NVIDIA的更深层合作,利用NVIDIA TensorRT-LLM等框架缩小效率差距。

【企业】CIO和架构师应进行零信任技术审计:测试OpenAI的优化是否影响输出质量(特别是INT4量化下的准确率下降),并要求OpenAI提供独立基准测试(包括尾部延迟、复杂任务吞吐量)。避免将关键业务完全绑定在OpenAI的闭源优化栈上,保留多模型部署弹性

【投资者】看穿公关辞令:虽然毛利率提升至65%是积极信号,但自研Jalapeño芯片的流片成本和工程维护费用尚未披露。关注OpenAI的资本开支拐点模型质量权衡。长期来看,系统优化红利可能被竞争对手追平,真正的护城河在于模型本身和数据集,而非工程技巧。

来源: 澎湃新闻
查看原文 →

觉得这篇分析有用?

每周收到3-5条AI基础设施关键信号 →

💬 评论 (0)