这项动态的影响程度如何？

该情报被评估为对企业具有重大影响，建议技术决策者关注。

Google 2026-06-02

Architecture Shift 影响: Major 强度: High 置信: 85%

Google Cloud 集成 GKE 多集群推理网关与托管 DRANET，定义 AI 服务网格新范式

Q: 为什么Google的这项动态对企业重要？

这标志着 **控制层转移型** 演进。控制层正从应用开发者手动编排故障转移和资源调度，移向由云平台托管的、声明式的 AI 服务网格基础设施。价值核心从优化单个 AI 推理任务的延迟/吞吐量，移向保障全局 AI 服务的可靠性、资源利用率和运营效率。Google Cloud 通过将 DRANET（网络）、Inference Gateway（流量）、Fleet（管理）深度集成到 GKE，正在夺取企业 AI 推理工作流的核心控制点，将复杂性抽象为平台服务，从而锁定高价值 AI 负载。

内容摘要

Google Cloud 通过博客和代码实验室展示了一项实验：将 TPU v6e、GKE 托管 DRANET（动态资源分配网络）、多集群 GKE Inference Gateway 与 Cloud Storage FUSE 集成，构建跨区域、高可用的 AI 推理服务。该架构利用 Fleet 统一管理集群，并通过声明式策略实现基于硬件指标（如 KV cache 使用率）的智能流量路由与故障转移。

核心要点

该博客详细描述了构建一个跨区域（如欧洲西部4区和美国东部5区）Gemma 3大模型推理服务的端到端配置。核心组件包括：1. GKE 托管 DRANET：为 Pod 提供专用的加速器网络（netdev.google.com），通过 ResourceClaimTemplate 声明式请求，确保 TPU Pod 获得高性能、隔离的网络路径。

多集群 GKE Inference Gateway：基于 Gateway API 和 gke-l7-cross-regional-internal-managed-mc 网关类，创建跨区域内部应用负载均衡器。它配合 InferencePool、InferenceObjective、HealthCheckPolicy 和 GCPBackendPolicy 等 CRD，能够根据自定义指标（如通过 AutoscalingMetric 采集的 vllm:kv_cache_usage_perc）进行智能路由，避免 TPU 过载。

集成化部署：使用 Cloud Storage FUSE CSI 驱动直接挂载模型权重；通过 GKE Fleet 启用多集群服务发现和入口；在 TPU 节点池启用 DRANET（--accelerator-network-profile=auto）。整个架构通过 Kubernetes 原生资源定义，实现了从网络、计算到负载均衡的全面声明式管理。

重要性说明

这标志着 控制层转移型 演进。控制层正从应用开发者手动编排故障转移和资源调度，移向由云平台托管的、声明式的 AI 服务网格基础设施。价值核心从优化单个 AI 推理任务的延迟/吞吐量，移向保障全局 AI 服务的可靠性、资源利用率和运营效率。Google Cloud 通过将 DRANET（网络）、Inference Gateway（流量）、Fleet（管理）深度集成到 GKE，正在夺取企业 AI 推理工作流的核心控制点，将复杂性抽象为平台服务，从而锁定高价值 AI 负载。

PRO 决策建议

[Vendors] 竞品（如 AWS、Azure）需评估自身 AI 推理服务栈的集成度差距，加速推出类似的多集群、硬件感知的负载均衡与网络抽象服务，否则将在高端企业 AI 部署场景中失去控制权。
[Enterprises] 正在规划生产级 AI 服务的企业架构师，应优先评估此类托管式 AI 服务网格的可行性，它可大幅降低跨区域高可用架构的运维复杂度，但需警惕对单一云平台深度集成的供应商锁定风险。
[Investors] 应关注云厂商在“云原生 AI 基础设施”领域的平台化能力竞赛，这将是决定其 AI 相关收入增长和客户粘性的关键战场，而不仅仅是硬件算力的竞争。

来源： blog

查看原文 →

觉得这篇分析有用？

每周收到3-5条AI基础设施关键信号 →

内容摘要

核心要点

重要性说明

PRO 决策建议

觉得这篇分析有用？

💬 评论 (0)