Google客户案例揭示:企业从LLM API消费转向自有微调开源模型
内容摘要
核心要点
Trustpilot为处理每日数百万条用户评论,放弃了调用Gemini等前沿闭源模型API的方案,转而以轻量级google/gemma-2-9b为基础,使用Gemini Pro/Flash系列模型作为“教师”生成高质量训练数据,微调出一系列专用于NER、主题分类、情感分析的高性能定制模型。
系统架构基于Google Cloud Dataflow和Gemini Enterprise Agent Platform Endpoints,通过VertexAIModelHandlerJSON实现业务逻辑与原始LLM推理的解耦。推理端使用经Google优化的vLLM后端,部署在A2 VM(A100 GPU)上,并通过精细调整vLLM配置(如prefix caching)和建立负载测试框架来优化性能与自动扩缩容。
实施中面临私有网络连接限制、端点部署可观测性不足以及欧盟地区A100 GPU资源稀缺等挑战。
重要性说明
这是一个典型的控制层转移信号。控制层正从[闭源模型API提供商(如OpenAI, Anthropic)]移向[拥有并微调开源模型的企业自身],伴随的价值流也从[按token消费的软件服务收入]移向[优化过的GPU基础设施与MLOps平台服务收入]。云厂商(如Google)通过此类案例,旨在将竞争焦点从模型能力比拼,引导至其基础设施对开源模型推理效率、成本与部署体验的优化能力上,从而巩固其IaaS/PaaS层的控制点。
PRO 决策建议
[Vendors] 云厂商需加速完善面向开源模型微调与部署的全栈优化方案(如专用芯片、优化推理引擎、成本分析工具),并将此作为对抗纯模型API服务商的关键差异化优势。
[Enterprises] 对于高吞吐量、核心业务AI场景,应评估从API消费转向微调开源模型的TCO与长期可控性,但需权衡由此增加的MLOps复杂性与GPU资源管理负担。
[Investors] 应关注基础设施软件层(如vLLM优化、模型部署平台、成本监控工具)的投资机会,以及云厂商资本开支向支持推理优化的硬件倾斜的趋势。
觉得这篇分析有用?
每周收到3-5条AI基础设施关键信号 →
💬 评论 (0)