Deep Analysis

Microsoft MDASH: Engineering-Grade Vulnerability Discovery via Multi-Model Agent Orchestration

Microsoft MDASH: Engineering-Grade Vulnerability Discovery via Multi-Model Agent Orchestration

Microsoft unveiled MDASH (Multi-model Agentic Scanning Harness) during the May 2026 Patch Tuesday—a system orchestrating 100+ specialized AI agents for end-to-end vulnerability discovery. Through a five-stage pipeline (Prepare→Scan→Validate→Dedup→Prove), MDASH automates the entire process from attack surface construction to proof-of-exploit generation. In private evaluations, MDASH achieved 21/21 findings with zero false positives on StorageDrive, 96% recall on clfs.sys vulnerabilities spanning five years, and 100% recall on tcpip.sys. On the CyberGym public benchmark, it scored 88.45%, outpacing the second-place competitor by approximately 5 points. Among the 120 vulnerabilities disclosed in the May Patch Tuesday, 16 were discovered by MDASH, including 4 Critical RCEs. This release marks the transition of AI-driven vulnerability discovery from research concept to engineering-grade production capability. MDASH and Anthropic Mythos occupy the same vulnerability discovery domain but follow divergent paths: MDASH embraces multi-model orchestration (system-level advantage), while Mythos relies on single-model reasoning via Claude (model-level advantage, access-restricted and research-oriented).


事件概述

2026年5月12日,微软在常规Patch Tuesday更新中披露了120个漏洞。随后的技术披露揭示了一个引人注目的事实:这批漏洞中有16个(约13%)来自一个内部AI驱动系统——MDASH(Microsoft Security multi-model agentic scanning harness)。次日,微软CEO萨提亚·纳德拉在社交媒体确认该系统的存在,强调其"代表安全能力的代际跃升"。

这16个由MDASH发现的漏洞包括4个Critical RCE(远程代码执行)漏洞,涵盖tcpip.sys的SSRR(Stream-Specific Circular Buffer Read)UAF(释放后使用)漏洞和ikeext.dll的IKEv2双重释放漏洞等高危案例。这些漏洞的发现和修复效率,远超传统人工审计的产出水平。


背景:为什么是现在

AI辅助漏洞发现并非新概念,但此前的进展主要停留在学术研究和竞赛场景。Anthropic的Mythos系统展示了利用Claude推理能力发现零日漏洞的潜力,但访问受限、偏研究性质,未公开规模化工程部署。MDASH的推出填补了从研究到工程化生产之间的关键空白。

微软选择此时推出MDASH,有几个关键驱动因素:

漏洞发现成本持续攀升。现代软件的攻击面指数级扩大,内存安全漏洞、竞争条件、逻辑错误等复杂缺陷的人工发现成本越来越高。微软产品线涵盖Windows内核、Azure服务、Office套件等海量代码库,仅靠人类安全研究员已难以覆盖。

多模型协作的技术成熟。2025-2026年间,Agent架构从单模型推理演进到多Agent协作对抗验证成为可能。MDASH的核心创新——让100+专用Agent相互"辩论"和交叉验证——正是这一技术趋势的直接产物。

地缘安全压力。国家级APT攻击日益频繁针对零日漏洞,国防和安全部门对自动化漏洞发现能力的投资加速。MDASH团队Autonomous Code Security (ACS)部分成员来自DARPA AI Cyber Challenge冠军Team Atlanta,这一背景暗示了军政合作的可能性。


技术分析:五阶段流水线深度拆解

MDASH采用五阶段顺序流水线,每个阶段承担独立职责,阶段间通过结构化数据传递形成闭环:

Prepare阶段构建攻击面和威胁模型。系统接收目标二进制/源码后,自动进行代码切片、依赖分析、接口识别,构建攻击者视角的可达路径图。这一阶段的质量直接影响后续扫描的覆盖范围。微软宣称该阶段能处理"数千个API的复杂调用图",但具体算法细节未公开。

Scan阶段是核心战场。100+审计Agent并行运作,每个Agent专注于特定漏洞类型(如UAF、栈溢出、SQL注入)或特定代码区域。关键设计是Agent的"模型无关"特性——系统不绑定特定基础模型,允许混合使用前沿模型和蒸馏模型。这一设计兼顾了深度推理能力和推理成本控制。

Validate阶段引入对抗式验证。辩论Agent不是简单接受Scan阶段的发现,而是主动寻找漏洞的可利用性障碍、复现条件限制。多个辩论Agent对同一发现提出质疑,原发现Agent需要提供反驳证据。这种对抗性设计是MDASH区别于传统静态分析工具的核心差异。

Dedup阶段处理语义等价去重。当多个Agent可能从不同路径发现同一个根因漏洞时,系统需要识别语义等价性而非仅依赖代码位置的文本相似度。这一能力对于控制误报率和后续分析效率至关重要。

Prove阶段构造触发输入证明漏洞存在。这是整个流水线的最终验证——不仅"告诉"分析员这里有个漏洞,还要"展示"漏洞如何被触发,通常生成PoC(概念验证)代码或触发序列。

多模型对抗式验证的架构创新在于:传统漏洞扫描依赖单一模型的模式匹配能力,而MDASH将"漏洞发现"这一任务分解为100+个子任务,每个子任务由专门的微调Agent处理,Agent间的辩论机制形成了某种"群体智能"效应。理论上这可以降低单一模型的盲点,但也引入了Agent间协调和一致性的工程挑战。


战略意义

从研究到工程级能力。CyberGym 88.45%的得分和Patch Tuesday的实际产出(16 CVE)证明,MDASH不只是一个研究原型,而是一个能够持续产出可用漏洞发现的生产系统。88.45%的CyberGym得分领先第二名约5分 ⚠️厂商宣称,但16 CVE在Patch Tuesday中的实际贡献 ✅已验证,这意味着系统已经过真实环境的有效性验证。

模型无关架构的长期价值。MDASH不绑定特定基础模型的设计具有深远影响。当前AI安全领域高度依赖OpenAI、Anthropic、Google等少数厂商的前沿模型,存在供应链风险。微软的模型无关架构意味着可以在不同模型间切换,甚至根据漏洞类型动态选择最优模型组合,降低对单一供应商的依赖。

重新定义漏洞发现的组织形式。当一个AI系统可以在单次更新周期内发现16个漏洞(占总量13%)时,传统的安全团队组织形式需要重新思考人力与AI的分工。微软的实践表明,AI不是替代安全研究员,而是将研究员从"大海捞针"的扫描工作中解放,专注于需要深度领域知识的漏洞利用和修复验证。


薄弱点分析

传统问题:假阳性率虽然声称很低,但StorageDrive的21/21零误报 ⚠️厂商宣称 测试集规模有限。真实产品环境复杂度远超私有测试集,跨代码库、跨语言的场景可能暴露新的问题。多年积累的技术债务(如不规范的代码风格、复杂的遗留逻辑)可能干扰AI分析。

AI攻击面:MDASH本身是一个复杂的多Agent系统,攻击面包括Agent间的通信协议、模型输出的注入攻击、辩论轮次中的Prompt注入。如果攻击者能够操纵辩论Agent的推理过程,可能导致漏洞被刻意忽略或误报。模型推理的不可解释性也意味着审计盲点难以被发现。

防御方向:需要在MDASH流水线中引入对抗性测试和红队评估,验证系统在面对针对性干扰时的鲁棒性。对Agent通信添加完整性校验,防止中间人攻击。日志和审计追溯机制对于发现系统性偏差至关重要。


预判

MDASH的推出预示了几个行业趋势:

1. 漏洞发现的AI密度将持续上升。微软率先实现规模化工程部署,将倒逼Anthropic(Mythos)等拥有类似技术能力的厂商跟进,从研究级走向工程级。

2. 模型无关架构将成为行业标准。依赖单一模型的安全工具将面临供应商锁定和供应链风险,架构的灵活性将成为核心竞争力。

3. 漏洞发现的"军备竞赛"将加剧。MDASH的能力提升意味着攻击者也可能利用类似技术发现0day漏洞,防御方需要加速采用AI辅助工具保持攻防平衡。

4. 安全研究员的角色将演变。从"发现漏洞"转向"验证和利用漏洞"、"设计AI系统的检测规则"、"处理复杂逻辑漏洞",高价值工作将更聚焦于AI难以处理的领域。

微软MDASH的核心价值不在于单一技术突破,而在于将多个成熟技术(多Agent协作、对抗式验证、流水线编排)整合为可工程化部署的系统。这为整个行业提供了一个可参照的架构范式。


🎯

Why it Matters

MDASH represents the transition of AI-driven vulnerability discovery from research concept to engineering-grade production capability. Its five-stage pipeline and multi-agent adversarial verification architecture provide a reference technical paradigm for the industry. By orchestrating 100+ specialized agents, the system has proven its viability in real-world environments, with 16 CVE contributions leading the industry. The model-agnostic design reduces supply chain risks and has profound implications for AI security tool development.
PRO

DECISION

For security teams: 1) Evaluate the integration space for AI-assisted tools in existing vulnerability discovery workflows; 2) Pay attention to MDASH's model-agnostic architecture design philosophy, reducing dependence on single AI vendors; 3) Accelerate the role transformation of security researchers, cultivating human-machine collaboration capabilities.
🔮 PRO

PREDICT

Within the next 12-18 months, vendors like Anthropic (Mythos) with relevant technical capabilities will follow with engineering-grade systems; model-agnostic architecture will become industry standard; AI vulnerability discovery will accelerate the attack-defense博弈 around zero-day vulnerabilities; security researcher roles will shift from 'discovering vulnerabilities' to 'validating and exploiting vulnerabilities'.

💬 Comments (0)