Technology Integration
影响: Important
强度: High
置信: 85%
思科发布前沿模型多轮对抗评估:所有模型均非免疫
内容摘要
思科发布了对15款前沿闭源大语言模型的多轮对抗攻击评估报告,结果显示所有模型在迭代攻击下都存在非微不足道的漏洞。单轮攻击成功率(ASR)无法预测多轮攻击下的表现,两者差距巨大,部分模型的多轮ASR高达88.30%。这挑战了行业当前依赖单轮基准测试评估模型安全性的做法。
核心要点
思科AI安全团队对来自OpenAI、Anthropic、Google、Amazon和xAI的15款旗舰闭源模型进行了配对制评估(paired-regime evaluation),比较单轮与多轮攻击成功率(ASR)。
评估基于一个固定的对抗语料库快照,包含30,090个单轮提示和6,986个多轮攻击。关键发现是:所有模型在多轮攻击下均未免疫,多轮ASR范围从7.89%到88.30%。单轮ASR与多轮ASR之间不存在稳定关联,模型排序会发生变化,例如Gemini 3 Pro的单轮ASR为18.10%,但多轮ASR飙升至73.35%。
报告还指出,配置选项能显著影响安全性,例如Grok 4.1 Fast在启用推理模式后,多轮ASR从88.30%降至43.47%。报告建议将多轮、按策略家族(strategy families)分解的评估纳入采购和部署流程。
评估基于一个固定的对抗语料库快照,包含30,090个单轮提示和6,986个多轮攻击。关键发现是:所有模型在多轮攻击下均未免疫,多轮ASR范围从7.89%到88.30%。单轮ASR与多轮ASR之间不存在稳定关联,模型排序会发生变化,例如Gemini 3 Pro的单轮ASR为18.10%,但多轮ASR飙升至73.35%。
报告还指出,配置选项能显著影响安全性,例如Grok 4.1 Fast在启用推理模式后,多轮ASR从88.30%降至43.47%。报告建议将多轮、按策略家族(strategy families)分解的评估纳入采购和部署流程。
重要性说明
这属于“威胁升级型”信号。攻击面从静态的、单次提示交互(X)扩大到动态的、迭代的多轮对话(Y)。防御重心正从单纯依赖模型自身的“对齐”安全(A),转向必须结合应用层策略、运行时护栏(runtime guardrails)和持续监控(B)的复合防御体系。思科此举旨在重新划定AI安全的边界,将安全评估和防御的责任从模型提供商部分转移到企业部署环境和第三方安全工具上。
PRO 决策建议
[Vendors] AI模型提供商(如OpenAI、Anthropic)需要立即将多轮对抗评估(multi-turn adversarial evaluation)和按策略家族分解的ASR数据纳入标准模型卡(model cards)和安全报告。核心原因在于,单轮基准测试已无法满足企业级采购对真实风险洞察的需求,透明化多轮漏洞是建立信任和应对监管审查的关键。
[Enterprises] 企业技术采购与安全团队必须将多轮对抗测试作为AI模型评估和采购流程的强制环节,并设定明确的回归阈值(如>15 pp的跨制式差距)。核心原因在于,依赖公开的单轮安全分数进行采购决策存在巨大的安全与治理盲区,可能导致部署高风险模型。
[Investors] 投资者应关注那些在AI安全运行时防护(如runtime guardrails)、监控和红队测试工具领域进行布局的初创公司或现有安全厂商。核心原因在于,思科的评估报告实质性地论证了“没有模型是天生安全的”,这将强力驱动市场对模型外(outside-the-model)安全解决方案的需求。
[Enterprises] 企业技术采购与安全团队必须将多轮对抗测试作为AI模型评估和采购流程的强制环节,并设定明确的回归阈值(如>15 pp的跨制式差距)。核心原因在于,依赖公开的单轮安全分数进行采购决策存在巨大的安全与治理盲区,可能导致部署高风险模型。
[Investors] 投资者应关注那些在AI安全运行时防护(如runtime guardrails)、监控和红队测试工具领域进行布局的初创公司或现有安全厂商。核心原因在于,思科的评估报告实质性地论证了“没有模型是天生安全的”,这将强力驱动市场对模型外(outside-the-model)安全解决方案的需求。
💬 评论 (0)