G
Google
2026-04-03
Vendor Strategy Important Medium 90% Confidence

Google为Gemini API推出Flex和Priority推理层级

内容摘要

Google在其Gemini API中新增Flex和Priority两个服务层级,允许开发者通过单一接口优化成本和可靠性。Flex针对延迟容忍型工作负载提供50%的成本节约,而Priority则为关键应用提供最高可靠性保障。这一变化简化了AI代理架构中同步和异步任务的管理。

核心要点

Google宣布为Gemini API推出Flex和Priority两种新的推理层级。
Flex是成本优化层级,适用于延迟容忍型工作负载,价格比标准API低50%,采用同步接口。
Priority是高级可靠性层级,确保关键流量在平台使用高峰期也不被抢占,超出限额的请求会自动降级到标准层。

重要性说明

这反映了Google在AI基础设施层的精细化运营策略,可能推动行业向更细粒度的API服务质量分级发展。对需要平衡成本与可靠性的企业AI部署具有直接参考价值。...

登录查看完整战略分析

免费注册
来源: Google Blog
查看原文 →