M
Microsoft
2026-05-23
Product Launch 影响: Major 强度: High 置信: 92%

微软发布Fara1.5浏览器Agent模型,72%任务成功率超OpenAI/Google

内容摘要

核心事件

微软研究院AI Frontiers实验室5月22日发布Fara1.5系列浏览器Computer-Use Agent模型(4B/9B/27B),基于Qwen3.5微调,配套MagenticLite沙盒浏览器。Fara1.5-27B在Online-Mind2Web取得72%任务成功率,超越OpenAI Operator(58.3%)、Gemini 2.5 CU(57.3%)、Yutori Navigator n1(64.7%)。✅已验证

三层架构

MagenticBrain(14B,Qwen3-14B微调):中央编排器,用户需求→执行计划+错误恢复。

Fara1.5(4B/9B/27B):浏览器交互模型,"观察-思考-行动"循环,每步结合历史+最近3张截图输出动作。✅已验证

Agent Harness:执行环境,原生动作空间,支持数百步上下文维持。

FaraGen1.5合成数据管线

~200万条SFT样本:60%网页轨迹 / 12.8%合成环境 / 12.5%表单交互 / 8.8% Grounding / 4.9% VQA。

关键创新:FaraEnvs——6个功能性合成应用克隆(Mail/Calendar/Stream/ML/Stay/Scheduler),解决封闭域训练数据不足问题。Solver用GPT-5.4生成轨迹,Online-Mind2Web得分83%。✅已验证

性能对比

模型Online-Mind2WebWebVoyager参数开放性
Fara1.5-27B72%88.6%27BOpen Weight
Fara1.5-9B63.4%86.6%9BOpen Weight
Navigator n164.7%闭源
OpenAI Operator58.3%87.0%闭源
Gemini 2.5 CU57.3%闭源
前代 Fara-7B34.1%7BOpen Weight

6个月性能翻倍(34.1%→72%),9B即超闭源系统。✅已验证

安全机制

临界点暂停:3种情况主动询问用户——缺个人信息/任务含糊/不可逆操作未批准。✅已验证

MagenticLite沙盒:动作全量日志+审计,沙盒隔离Agent与用户设备。✅已验证

安全薄弱点

视觉提示注入:Agent读网页截图执行操作,恶意网页可通过视觉注入操控Agent行为,能力越强风险越大。

凭证暴露:Agent需访问已登录网站,OAuth token/session cookie对Agent可见,被诱导即凭证泄露。

沙盒边界有限:仅隔离Agent与设备,不隔离Agent与企业网络,浏览器访问内网应用不受约束。

信息来源

微软研究院: https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/

Microsoft Signal Blog: https://news.microsoft.com/signal/home/

核心要点

三层架构(编排+执行+环境)+ FaraEnvs合成克隆 + GPT-5.4蒸馏到小模型,验证'大模型生成+小模型部署'路径。9B即超闭源说明Agent能力关键在工具编排而非参数量

重要性说明

开源小模型在浏览器Agent核心benchmark超越OpenAI/Google闭源系统;浏览器Agent是EDR盲区的新型Agent形态,安全架构未覆盖

PRO 决策建议

评估浏览器Agent对EDR/DLP的绕过风险;Agent身份平台纳入浏览器Agent发现范围
来源: Unknown

💬 评论 (0)