谷歌发布Gemini 3.1 Flash Live音频模型，提升实时对话与多语言能力

内容摘要

谷歌推出Gemini 3.1 Flash Live音频模型，在ComplexFuncBench Audio基准达到90.8%得分，延迟降低且对话线程时长翻倍。该模型通过API向开发者和企业提供，集成SynthID水印，支持多语言和复杂任务处理。

核心要点

Google于2026年3月26日发布Gemini 3.1 Flash Live音频模型。在ComplexFuncBench Audio基准测试中得分90.8%，在Scale AI的Audio MultiChallenge基准测试中得分36.1%（“思考”模式开启）。相比前代模型，响应速度更快，对话线程保持时长延长一倍，并具备更好的音调理解和多语言能力。

模型通过Gemini Live API（Google AI Studio）向开发者提供预览，通过Gemini Enterprise向企业客户提供，并通过Search Live和Gemini Live向公众开放，覆盖超过200个国家和地区。所有生成音频均内嵌SynthID水印。

重要性说明

谷歌强化AI语音战略，推动企业级语音代理部署，可能加剧与AWS、Azure在实时AI应用市场的竞争。...

登录查看完整战略分析

免费注册

来源： Google Blog

查看原文 →