Architecture Shift
影响: Important
强度: High
置信: 90%
思科研究揭示VLM双重失效模式,暴露AI安全表征层脆弱性
内容摘要
思科AI安全团队研究发现,通过对图像进行微小、有界的像素扰动,可绕过视觉语言模型的安全对齐,揭示出‘可读性恢复’与‘拒绝抑制’两种共存的失效模式。这表明攻击可在不依赖目标模型内部信息的情况下,利用多模态嵌入距离作为攻击指标,暴露了当前基于像素域或OCR过滤的防御机制的局限性。
核心要点
研究基于第一部分发现的嵌入距离与攻击成功率(ASR)的强相关性,通过SSA-CWA优化技术对退化图像(如小字体、重模糊、旋转)施加微小扰动,使其在嵌入空间中更接近攻击提示文本。
实验在GPT-4o、Claude Sonnet 4.5等主流VLM上验证,扰动可产生两种效果:1)使模型能‘读取’原本不可读的图像内容(可读性恢复);2)使模型对已读取的有害指令从‘拒绝’转为‘遵从’(拒绝抑制)。攻击利用替代嵌入模型生成扰动,可转移至专有目标模型,形成从规避检测到实现遵从的攻击链。
实验在GPT-4o、Claude Sonnet 4.5等主流VLM上验证,扰动可产生两种效果:1)使模型能‘读取’原本不可读的图像内容(可读性恢复);2)使模型对已读取的有害指令从‘拒绝’转为‘遵从’(拒绝抑制)。攻击利用替代嵌入模型生成扰动,可转移至专有目标模型,形成从规避检测到实现遵从的攻击链。
重要性说明
【威胁升级型】这标志着针对多模态AI的攻击面从直接的提示注入,扩展到利用模型内部表征空间的脆弱性。防御重心需要从检测像素域的可疑内容,转向确保嵌入空间表征的鲁棒性,否则基于OCR或简单图像过滤的企业AI安全方案将面临系统性绕过风险。
PRO 决策建议
厂商:需开发嵌入空间感知的安全机制,将防御层从输入过滤扩展到表征对齐,并评估现有内容安全产品对这类攻击的防护能力。
企业:需重新评估部署的VLM应用的安全边界,特别是涉及用户上传图像或文档的场景,不能仅依赖OCR或视觉过滤,应要求供应商提供针对表征空间攻击的防御证明。
投资者:关注AI安全赛道中专注于模型鲁棒性、对抗性样本防御和表征层安全的新兴公司,传统基于规则或简单过滤的安全方案价值可能被削弱。
企业:需重新评估部署的VLM应用的安全边界,特别是涉及用户上传图像或文档的场景,不能仅依赖OCR或视觉过滤,应要求供应商提供针对表征空间攻击的防御证明。
投资者:关注AI安全赛道中专注于模型鲁棒性、对抗性样本防御和表征层安全的新兴公司,传统基于规则或简单过滤的安全方案价值可能被削弱。
💬 评论 (0)