谷歌Gemini多物体识别与扇出技术升级视觉搜索

内容摘要

谷歌通过Gemini多模态模型实现单图像多物体并行识别与搜索，采用扇出技术同时触发多个视觉查询。该技术将搜索模式从单一对象升级为场景级理解，显著提升响应效率与信息深度。

谷歌利用Gemini模型作为分析核心，实现对单张图像中多个物体的同时识别。通过扇出技术在单次查询中并行触发多个视觉搜索，从包含数十亿网页的后端库中检索信息。支持从图像搜索扩展到文本搜索触发场景，应用覆盖购物、家居设计、艺术鉴赏等领域。

体现谷歌在多模态AI推理基础设施的技术进阶，可能推动行业从单一识别向场景理解演进，增强垂直领域AI应用能力。...

登录查看完整战略分析

免费注册

来源： Google Blog