Product Launch
Important
High
90% Confidence
谷歌发布原生多模态嵌入模型Gemini Embedding 2
内容摘要
谷歌DeepMind推出基于Gemini架构的首个原生多模态嵌入模型,支持文本、图像、视频、音频和文档的统一嵌入空间处理。模型采用Matryoshka表示学习技术,支持动态维度缩放,优化存储与性能平衡。该技术简化跨模态数据处理,提升语义理解能力。
核心要点
谷歌发布Gemini Embedding 2,这是其首个基于Gemini架构的原生多模态嵌入模型,目前已进入公开预览阶段。该模型将文本、图像、视频、音频和文档映射到一个统一的嵌入空间,支持跨100多种语言的语义意图捕捉。
技术规格包括支持长达8192个输入标记的文本,单次请求可处理最多6张图像(PNG/JPEG)、最长120秒的视频(MP4/MOV),并能原生嵌入音频数据而无需中间文本转录,还可直接处理长达6页的PDF文档。核心创新是原生理解交错输入,允许混合多种模态(如图像+文本),捕捉不同媒体类型间复杂关系。
模型集成Matryoshka表示学习(MRL)技术,支持从默认3072维动态缩放出灵活输出维度(推荐3072、1536、768维),便于开发者平衡性能与存储成本。谷歌声称在文本、图像和视频任务上超越领先模型,为多模态深度设定新性能标准。
技术规格包括支持长达8192个输入标记的文本,单次请求可处理最多6张图像(PNG/JPEG)、最长120秒的视频(MP4/MOV),并能原生嵌入音频数据而无需中间文本转录,还可直接处理长达6页的PDF文档。核心创新是原生理解交错输入,允许混合多种模态(如图像+文本),捕捉不同媒体类型间复杂关系。
模型集成Matryoshka表示学习(MRL)技术,支持从默认3072维动态缩放出灵活输出维度(推荐3072、1536、768维),便于开发者平衡性能与存储成本。谷歌声称在文本、图像和视频任务上超越领先模型,为多模态深度设定新性能标准。
重要性说明
谷歌强化多模态AI基础设施战略,推动统一嵌入空间技术,可能加速企业跨模态应用部署,影响AI生态竞争格局。...