Google 谷歌发布原生多模态嵌入模型Gemini Embedding 2 - AI基础设施情报分析

内容摘要

谷歌DeepMind推出基于Gemini架构的首个原生多模态嵌入模型，支持文本、图像、视频、音频和文档的统一嵌入空间处理。模型采用Matryoshka表示学习技术，支持动态维度缩放，优化存储与性能平衡。该技术简化跨模态数据处理，提升语义理解能力。

核心要点

谷歌发布Gemini Embedding 2，这是其首个基于Gemini架构的原生多模态嵌入模型，目前已进入公开预览阶段。该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间，支持跨100多种语言的语义意图捕捉。

技术规格包括支持长达8192个输入标记的文本，单次请求可处理最多6张图像（PNG/JPEG）、最长120秒的视频（MP4/MOV），并能原生嵌入音频数据而无需中间文本转录，还可直接处理长达6页的PDF文档。核心创新是原生理解交错输入，允许混合多种模态（如图像+文本），捕捉不同媒体类型间复杂关系。

模型集成Matryoshka表示学习（MRL）技术，支持从默认3072维动态缩放出灵活输出维度（推荐3072、1536、768维），便于开发者平衡性能与存储成本。谷歌声称在文本、图像和视频任务上超越领先模型，为多模态深度设定新性能标准。

重要性说明

谷歌强化多模态AI基础设施战略，推动统一嵌入空间技术，可能加速企业跨模态应用部署，影响AI生态竞争格局。...

登录查看完整战略分析

免费注册