Product Launch
Important
Medium
90% Confidence
谷歌发布Gemini 3.1 Flash Live音频模型,提升实时对话与多语言能力
内容摘要
谷歌推出Gemini 3.1 Flash Live音频模型,在ComplexFuncBench Audio基准达到90.8%得分,延迟降低且对话线程时长翻倍。该模型通过API向开发者和企业提供,集成SynthID水印,支持多语言和复杂任务处理。
核心要点
Google于2026年3月26日发布Gemini 3.1 Flash Live音频模型。在ComplexFuncBench Audio基准测试中得分90.8%,在Scale AI的Audio MultiChallenge基准测试中得分36.1%(“思考”模式开启)。相比前代模型,响应速度更快,对话线程保持时长延长一倍,并具备更好的音调理解和多语言能力。
模型通过Gemini Live API(Google AI Studio)向开发者提供预览,通过Gemini Enterprise向企业客户提供,并通过Search Live和Gemini Live向公众开放,覆盖超过200个国家和地区。所有生成音频均内嵌SynthID水印。
模型通过Gemini Live API(Google AI Studio)向开发者提供预览,通过Gemini Enterprise向企业客户提供,并通过Search Live和Gemini Live向公众开放,覆盖超过200个国家和地区。所有生成音频均内嵌SynthID水印。
重要性说明
谷歌强化AI语音战略,推动企业级语音代理部署,可能加剧与AWS、Azure在实时AI应用市场的竞争。...