阿里推出多模态深度研究智能体WebWatcher

AI 概述
阿里巴巴自然语言处理团队宣布推出 WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源 Agent 在多模态深度研究领域的局限性。WebWatcher 通过整合网页浏览、图像搜索、代码解释器和内部 OCR 等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调...

阿里巴巴自然语言处理团队宣布推出 WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源 Agent 在多模态深度研究领域的局限性。WebWatcher 通过整合网页浏览、图像搜索、代码解释器和内部 OCR 等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。

WebWatcher 的开发团队指出,尽管现有的闭源系统如 OpenAI 的 DeepResearch 在文本深度研究方面表现出色,但它们大多局限于纯文本环境,难以处理现实世界中复杂的图像、图表和混合内容。而现有的开源 Agent 也面临两大瓶颈:一类是专注于文本检索的 Agent,虽然能够整合信息,但无法处理图像;另一类是视觉 Agent,虽然能够识别图像,但缺乏跨模态推理和多工具协同能力。WebWatcher 正是为了解决这些瓶颈而设计的。

WebWatcher 的技术方案覆盖了从数据构建到训练优化的完整链路,其核心目标是让多模态 Agent 在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。为此,研究团队设计了一个全自动多模态数据生成流程,通过随机游走收集跨模态知识链,并引入信息模糊化技术,提升任务的不确定性和复杂性。所有复杂问题样本通过 QA-to-VQA 转换模块扩展为多模态版本,进一步增强了模型的跨模态理解能力。

阿里推出多模态深度研究智能体 WebWatcher

在高质量推理轨迹构建与后训练方面,WebWatcher 采用了 Action-Observation 驱动的轨迹生成方法,通过收集真实的多工具交互轨迹并进行监督微调(SFT),让模型在训练初期快速掌握多模态 ReAct 式推理和工具调用的基本模式。随后,模型进入强化学习阶段,通过 GRPO 进一步提升多模态 Agent 在复杂环境下的决策能力。

为了全面验证 WebWatcher 的能力,研究团队提出了 BrowseComp-VL,这是 BrowseComp 在视觉-语言任务上的扩展版本,旨在逼近人类专家的跨模态研究任务难度。在多轮严格评测中,WebWatcher 在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上全面领先于当前主流的开源与闭源多模态大模型。

具体来说,在人类终极考试(Humanity’s Last Exam,HLE-VL)这一多步复杂推理基准上,WebWatcher 以 13.6%的 Pass@1 分数一举夺魁,大幅领先于 GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和 Qwen2.5-VL-72B(8.6%)等代表性模型。在更贴近真实多模态搜索的 MMSearch 评测中,WebWatcher 的 Pass@1 得分高达 55.3%,相比 Gemini2.5-flash(43.9%)和 GPT-4o(24.1%)大幅领先。在 LiveVQA 评测中,WebWatcher 的 Pass@1 成绩达到 58.7%,领先于其他主流模型。在最具综合挑战的 BrowseComp-VL 基准上,WebWatcher 以 27.0%的平均得分(Pass@1)遥遥领先,成绩提升超过一倍。

以上关于阿里推出多模态深度研究智能体WebWatcher的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。

「点点赞赏,手留余香」

0

给作者打赏,鼓励TA抓紧创作!

微信微信 支付宝支付宝

还没有人赞赏,快来当第一个赞赏的人吧!

声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » 阿里推出多模态深度研究智能体WebWatcher

发表回复