这项动态的影响程度如何？

该情报被评估为对企业具有重要影响，建议技术决策者关注。

Cisco 2026-05-06

Architecture Shift 影响: Important 强度: High 置信: 90%

思科研究揭示VLM双重失效模式，暴露AI安全表征层脆弱性

内容摘要

思科AI安全团队研究发现，通过对图像进行微小、有界的像素扰动，可绕过视觉语言模型的安全对齐，揭示出‘可读性恢复’与‘拒绝抑制’两种共存的失效模式。这表明攻击可在不依赖目标模型内部信息的情况下，利用多模态嵌入距离作为攻击指标，暴露了当前基于像素域或OCR过滤的防御机制的局限性。

核心要点

研究基于第一部分发现的嵌入距离与攻击成功率（ASR）的强相关性，通过SSA-CWA优化技术对退化图像（如小字体、重模糊、旋转）施加微小扰动，使其在嵌入空间中更接近攻击提示文本。

实验在GPT-4o、Claude Sonnet 4.5等主流VLM上验证，扰动可产生两种效果：1）使模型能‘读取’原本不可读的图像内容（可读性恢复）；2）使模型对已读取的有害指令从‘拒绝’转为‘遵从’（拒绝抑制）。攻击利用替代嵌入模型生成扰动，可转移至专有目标模型，形成从规避检测到实现遵从的攻击链。

重要性说明

【威胁升级型】这标志着针对多模态AI的攻击面从直接的提示注入，扩展到利用模型内部表征空间的脆弱性。防御重心需要从检测像素域的可疑内容，转向确保嵌入空间表征的鲁棒性，否则基于OCR或简单图像过滤的企业AI安全方案将面临系统性绕过风险。

PRO 决策建议

厂商：需开发嵌入空间感知的安全机制，将防御层从输入过滤扩展到表征对齐，并评估现有内容安全产品对这类攻击的防护能力。
企业：需重新评估部署的VLM应用的安全边界，特别是涉及用户上传图像或文档的场景，不能仅依赖OCR或视觉过滤，应要求供应商提供针对表征空间攻击的防御证明。
投资者：关注AI安全赛道中专注于模型鲁棒性、对抗性样本防御和表征层安全的新兴公司，传统基于规则或简单过滤的安全方案价值可能被削弱。

来源： Cisco Blog

查看原文 →

内容摘要

核心要点

重要性说明

PRO 决策建议

💬 评论 (0)