Cloudflare AI Gateway 引入身份驱动预算,争夺 AI 流量控制层
内容摘要
核心要点
Cloudflare AI Gateway 新增两个核心能力:
- Spend Limits(公开测试版):以美元为单位设置预算,支持固定/滚动周期(日/周/月),可按模型、提供商或自定义属性(用户、团队、应用)设定。当达到预算上限时,默认阻断请求,或通过 Dynamic Routes 降级到更便宜的模型。成本基于模型定价实时计算。
- Identity-Driven Budgets & Policies(封闭测试版):与 Cloudflare Access 集成,通过 OAuth CLI device-code flow 认证后,从 JWT 提取身份附加到请求元数据。支持基于 IdP 组的预算策略(如工程师 $500/月,实习生 $200/月并限制为开源模型),以及 CI/CD 服务令牌的独立预算。所有日志包含认证身份,可导出到分析平台。
Cloudflare 内部已使用此方案管理每月数十亿 token 的请求。未来计划推出智能任务路由,自动选择性价比最优的模型。
重要性说明
Cloudflare 此动作表面是帮企业控制 AI 成本,本质是在防御 AWS API Gateway、Kong、Azure API Management 等传统 API 管理平台,并合围 AI 模型提供商(OpenAI、Anthropic)的直接计费接口。通过将身份认证(Cloudflare Access)与 AI 网关深度绑定,Cloudflare 隐性锁定了企业的身份代理层——企业必须使用 Access 才能获得自动化用户级预算,否则只能依赖应用自行传递元数据(易被绕过)。
被故意淡化的工程限制包括:
- 智能路由依赖 Cloudflare 网络:未来基于任务的模型路由需要将请求先经过 Cloudflare 边缘,可能引入额外延迟(尤其在非 Cloudflare 网络覆盖好的区域),且无法保证对尾部延迟(Tail Latency)敏感的应用(如实时推理)的 SLA。
- 成本计算模型不透明:AI Gateway 基于模型公开定价计算成本,但实际模型提供商可能有折扣、缓存命中或批量定价,导致预算与实际账单存在偏差。
- 身份集成锁定:身份驱动的预算强制绑定 Cloudflare Access,企业若想迁移到其他网关或自建方案,需要重写身份验证逻辑,增加了跨云可移植性(Cross-Cloud Portability)的摩擦。
PRO 决策建议
【厂商(竞争对手)】AWS、Azure、Kong、Fastly 应快速推出类似的身份驱动 AI 成本控制功能,并强调与现有 IdP(如 Okta、Azure AD)的原生集成,无需额外 Access 代理。同时攻击 Cloudflare 的延迟风险:在大模型推理场景下,额外网关跳数会显著增加P99 延迟,建议提供边缘节点分布对比数据。
【企业(CIO/架构师)】立即对 AI Gateway 进行零信任技术审计:1)测试身份驱动预算是否支持非 Cloudflare Access 的 IdP(如 Okta 直接 OIDC);2)对比启用 AI Gateway 前后的推理延迟,特别是尾部延迟;3)评估迁移成本:若未来需要切换网关,身份绑定逻辑能否解耦?建议保留模型提供商直接调用的备用通道,避免单一控制点。
【投资者】Cloudflare 通过 AI Gateway 将自身定位为 AI 流量的控制平面,这是其从 CDN 向平台公司转型的关键一步。但需警惕:该功能依赖 Access 的渗透率,且面临 AWS/Azure 原生 API 管理的挤压。短期看是产品差异化,长期需观察企业是否愿意将 AI 治理完全外包给第三方网关。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)