What is Microsoft MDASH: Engineering-Grade Vulnerability Discovery via Multi-Model Agent Orchestration?

Microsoft unveiled MDASH during May 2026 Patch Tuesday—an end-to-end vulnerability discovery system orchestrating 100+ specialized AI agents. Through a five-stage pipeline, it automates attack surface construction to proof-of-exploit generation. Private evaluations show 21/21 findings with zero false positives on StorageDrive, 96% recall on clfs.sys vulnerabilities, and 100% recall on tcpip.sys. CyberGym benchmark scored 88.45%. Among 120 vulnerabilities in May Patch Tuesday, 16 were discovered by MDASH including 4 Critical RCEs.

Deep Dive: Microsoft MDASH: Engineering-Grade Vulnerabili...

Microsoft MDASH: Engineering-Grade Vulnerability Discovery via Multi-Model Agent Orchestration

Microsoft unveiled MDASH (Multi-model Agentic Scanning Harness) during the May 2026 Patch Tuesday—a system orchestrating 100+ specialized AI agents for end-to-end vulnerability discovery. Through a five-stage pipeline (Prepare→Scan→Validate→Dedup→Prove), MDASH automates the entire process from attack surface construction to proof-of-exploit generation. In private evaluations, MDASH achieved 21/21 findings with zero false positives on StorageDrive, 96% recall on clfs.sys vulnerabilities spanning five years, and 100% recall on tcpip.sys. On the CyberGym public benchmark, it scored 88.45%, outpacing the second-place competitor by approximately 5 points. Among the 120 vulnerabilities disclosed in the May Patch Tuesday, 16 were discovered by MDASH, including 4 Critical RCEs. This release marks the transition of AI-driven vulnerability discovery from research concept to engineering-grade production capability. MDASH and Anthropic Mythos occupy the same vulnerability discovery domain but follow divergent paths: MDASH embraces multi-model orchestration (system-level advantage), while Mythos relies on single-model reasoning via Claude (model-level advantage, access-restricted and research-oriented).

事件概述

2026年5月12日，微软在常规Patch Tuesday更新中披露了120个漏洞。随后的技术披露揭示了一个引人注目的事实：这批漏洞中有16个（约13%）来自一个内部AI驱动系统——MDASH（Microsoft Security multi-model agentic scanning harness）。次日，微软CEO萨提亚·纳德拉在社交媒体确认该系统的存在，强调其"代表安全能力的代际跃升"。

这16个由MDASH发现的漏洞包括4个Critical RCE（远程代码执行）漏洞，涵盖tcpip.sys的SSRR（Stream-Specific Circular Buffer Read）UAF（释放后使用）漏洞和ikeext.dll的IKEv2双重释放漏洞等高危案例。这些漏洞的发现和修复效率，远超传统人工审计的产出水平。

背景：为什么是现在

AI辅助漏洞发现并非新概念，但此前的进展主要停留在学术研究和竞赛场景。Anthropic的Mythos系统展示了利用Claude推理能力发现零日漏洞的潜力，但访问受限、偏研究性质，未公开规模化工程部署。MDASH的推出填补了从研究到工程化生产之间的关键空白。

微软选择此时推出MDASH，有几个关键驱动因素：

漏洞发现成本持续攀升。现代软件的攻击面指数级扩大，内存安全漏洞、竞争条件、逻辑错误等复杂缺陷的人工发现成本越来越高。微软产品线涵盖Windows内核、Azure服务、Office套件等海量代码库，仅靠人类安全研究员已难以覆盖。

多模型协作的技术成熟。2025-2026年间，Agent架构从单模型推理演进到多Agent协作对抗验证成为可能。MDASH的核心创新——让100+专用Agent相互"辩论"和交叉验证——正是这一技术趋势的直接产物。

地缘安全压力。国家级APT攻击日益频繁针对零日漏洞，国防和安全部门对自动化漏洞发现能力的投资加速。MDASH团队Autonomous Code Security (ACS)部分成员来自DARPA AI Cyber Challenge冠军Team Atlanta，这一背景暗示了军政合作的可能性。

技术分析：五阶段流水线深度拆解

MDASH采用五阶段顺序流水线，每个阶段承担独立职责，阶段间通过结构化数据传递形成闭环：

Prepare阶段构建攻击面和威胁模型。系统接收目标二进制/源码后，自动进行代码切片、依赖分析、接口识别，构建攻击者视角的可达路径图。这一阶段的质量直接影响后续扫描的覆盖范围。微软宣称该阶段能处理"数千个API的复杂调用图"，但具体算法细节未公开。

Scan阶段是核心战场。100+审计Agent并行运作，每个Agent专注于特定漏洞类型（如UAF、栈溢出、SQL注入）或特定代码区域。关键设计是Agent的"模型无关"特性——系统不绑定特定基础模型，允许混合使用前沿模型和蒸馏模型。这一设计兼顾了深度推理能力和推理成本控制。

Validate阶段引入对抗式验证。辩论Agent不是简单接受Scan阶段的发现，而是主动寻找漏洞的可利用性障碍、复现条件限制。多个辩论Agent对同一发现提出质疑，原发现Agent需要提供反驳证据。这种对抗性设计是MDASH区别于传统静态分析工具的核心差异。

Dedup阶段处理语义等价去重。当多个Agent可能从不同路径发现同一个根因漏洞时，系统需要识别语义等价性而非仅依赖代码位置的文本相似度。这一能力对于控制误报率和后续分析效率至关重要。

Prove阶段构造触发输入证明漏洞存在。这是整个流水线的最终验证——不仅"告诉"分析员这里有个漏洞，还要"展示"漏洞如何被触发，通常生成PoC（概念验证）代码或触发序列。

多模型对抗式验证的架构创新在于：传统漏洞扫描依赖单一模型的模式匹配能力，而MDASH将"漏洞发现"这一任务分解为100+个子任务，每个子任务由专门的微调Agent处理，Agent间的辩论机制形成了某种"群体智能"效应。理论上这可以降低单一模型的盲点，但也引入了Agent间协调和一致性的工程挑战。

战略意义

从研究到工程级能力。CyberGym 88.45%的得分和Patch Tuesday的实际产出（16 CVE）证明，MDASH不只是一个研究原型，而是一个能够持续产出可用漏洞发现的生产系统。88.45%的CyberGym得分领先第二名约5分 ⚠️厂商宣称，但16 CVE在Patch Tuesday中的实际贡献 ✅已验证，这意味着系统已经过真实环境的有效性验证。

模型无关架构的长期价值。MDASH不绑定特定基础模型的设计具有深远影响。当前AI安全领域高度依赖OpenAI、Anthropic、Google等少数厂商的前沿模型，存在供应链风险。微软的模型无关架构意味着可以在不同模型间切换，甚至根据漏洞类型动态选择最优模型组合，降低对单一供应商的依赖。

重新定义漏洞发现的组织形式。当一个AI系统可以在单次更新周期内发现16个漏洞（占总量13%）时，传统的安全团队组织形式需要重新思考人力与AI的分工。微软的实践表明，AI不是替代安全研究员，而是将研究员从"大海捞针"的扫描工作中解放，专注于需要深度领域知识的漏洞利用和修复验证。

薄弱点分析

传统问题：假阳性率虽然声称很低，但StorageDrive的21/21零误报 ⚠️厂商宣称测试集规模有限。真实产品环境复杂度远超私有测试集，跨代码库、跨语言的场景可能暴露新的问题。多年积累的技术债务（如不规范的代码风格、复杂的遗留逻辑）可能干扰AI分析。

AI攻击面：MDASH本身是一个复杂的多Agent系统，攻击面包括Agent间的通信协议、模型输出的注入攻击、辩论轮次中的Prompt注入。如果攻击者能够操纵辩论Agent的推理过程，可能导致漏洞被刻意忽略或误报。模型推理的不可解释性也意味着审计盲点难以被发现。

防御方向：需要在MDASH流水线中引入对抗性测试和红队评估，验证系统在面对针对性干扰时的鲁棒性。对Agent通信添加完整性校验，防止中间人攻击。日志和审计追溯机制对于发现系统性偏差至关重要。

预判

MDASH的推出预示了几个行业趋势：

1. 漏洞发现的AI密度将持续上升。微软率先实现规模化工程部署，将倒逼Anthropic（Mythos）等拥有类似技术能力的厂商跟进，从研究级走向工程级。

2. 模型无关架构将成为行业标准。依赖单一模型的安全工具将面临供应商锁定和供应链风险，架构的灵活性将成为核心竞争力。

3. 漏洞发现的"军备竞赛"将加剧。MDASH的能力提升意味着攻击者也可能利用类似技术发现0day漏洞，防御方需要加速采用AI辅助工具保持攻防平衡。

4. 安全研究员的角色将演变。从"发现漏洞"转向"验证和利用漏洞"、"设计AI系统的检测规则"、"处理复杂逻辑漏洞"，高价值工作将更聚焦于AI难以处理的领域。

微软MDASH的核心价值不在于单一技术突破，而在于将多个成熟技术（多Agent协作、对抗式验证、流水线编排）整合为可工程化部署的系统。这为整个行业提供了一个可参照的架构范式。

🎯

Why it Matters

MDASH represents the transition of AI-driven vulnerability discovery from research concept to engineering-grade production capability. Its five-stage pipeline and multi-agent adversarial verification architecture provide a reference technical paradigm for the industry. By orchestrating 100+ specialized agents, the system has proven its viability in real-world environments, with 16 CVE contributions leading the industry. The model-agnostic design reduces supply chain risks and has profound implications for AI security tool development.

⚡ PRO

DECISION

For security teams: 1) Evaluate the integration space for AI-assisted tools in existing vulnerability discovery workflows; 2) Pay attention to MDASH's model-agnostic architecture design philosophy, reducing dependence on single AI vendors; 3) Accelerate the role transformation of security researchers, cultivating human-machine collaboration capabilities.

🔮 PRO

PREDICT

Within the next 12-18 months, vendors like Anthropic (Mythos) with relevant technical capabilities will follow with engineering-grade systems; model-agnostic architecture will become industry standard; AI vulnerability discovery will accelerate the attack-defense博弈 around zero-day vulnerabilities; security researcher roles will shift from 'discovering vulnerabilities' to 'validating and exploiting vulnerabilities'.

Get 3-5 key AI infrastructure signals weekly →

Microsoft MDASH: Engineering-Grade Vulnerability Discovery via Multi-Model Agent Orchestration