
Agent 能"看懂网页",像东说念主类不异上网?
阿里发布WebDancer,就像它的名字不异,为"汇注舞台"而生。
独一输入指示,它就不错帮你上网搜索、作念攻略,杀青自主信息检索代理和访佛深度究诘模子的推理。
传统模子只可按固定历程念念考,而 WebDancer 行动一个端到端的自主信息搜索智能体,具备多步推理、器具使用和泛化才略。

WebDancer 在 GAIA 和 WebWalkerQA 上远隔取得了 61.1% 和 54.6% 的 Pass@3 分数,优于基线模子和部分开源框架。
模子和法子均已开源,网友直呼想试:

WebDancer 的精巧火器
不同于其它的推理问答模子,WebDancer 要像东说念主类不异念念考、意会并操作,可不是一件简短的事情。
使用 GAIA、WebWalkerQA 和普通使用情况对 WebDancer 进行演示,不错看到,WebDancer 未必推行多设施和复杂推理的经久任务,举例网页遍历、信息搜索和问答。
它的"精巧火器"是一种四阶段检修范式,包括浏览数据构建、轨迹采样、针对灵验冷启动的监督微调以及用于阅兵泛化才略的强化学习。
阿里开源了这个检修框架,使除了 WebDancer 除外的智能代理也未必自主获取自主搜索和推理妙技:
1、浏览数据构建

这一步的主义是创建阴私确切的网页环境、需要多步交互的复杂 QA 对。
不错分为两个汇注数据生成历程,如上图所示。
在 CRAWLQA 中,需要先网罗常识性网站(ArXiv、GitHub、Wiki 等)的主 URL,然后在主页上系统场地击和网罗通过子连气儿可看望的子页面,模拟东说念主类步履。
使用预界说法例,就不错专揽 GPT4o 把柄网罗到的信息生成 QA 对(1.0 版)了。
关于 E2HQA ( Easy-to-Hard QA ) 来说,将开动的简短问题 Q1 通过实体检索→信息彭胀→问题重构的设施,使任务在复杂性上徐徐彭胀,简约单的实例到更具挑战性的实例。
照旧是使用 GPT-4o 重写问题,直到迭代达到 n,QA 对有余训练。
2、轨迹采样

这一步要从 QA 对中生成高质地的念念维 - 动作 - 不雅察(Thought-Action-Observation)推行轨迹。
WebDancer 的代理框架基于ReAct,这是言语代理最流行的法子,一个 ReAct 轨迹由多个念念维 - 动作 - 不雅察轮次构成:
在念念维阶段,模子会把柄输入生成推理链,然后在动作阶段将参数为结构化 JSON,终末在不雅察阶段复返效劳(如网页摘录或搜索片断)。
念念维阶段生成的念念维链对智能体推行十分遑急,WebDancer 选拔了双旅途采样的法子,可分为短念念维链和长念念维链两条旅途:
短念念维链适用于单设施任务,平直使用 GPT-4o 生成简略轨迹;
长念念维链适用于多设施任务,使用专用推理模子(LRMs、QwQ-Plus)生成带长链推理的轨迹。
因为 LRM、QwQ-Plus 在检修过程中莫得来回过多步推理输入,在进一步推理时,WebDancer 排斥了之前的念念维,但它们行动有价值的监督信号保留在了生成的轨迹中。
随后,WebDancer 选拔了一个基于漏斗的三阶段轨迹过滤框架,仅保留满足以下三个规范的轨迹:信息非冗余、主义一致性以及逻辑推理准确性。
3、有监督微调

在得回 ReAct 体式的优质轨迹后,就不错将其无缝整合到智能体的有监督微调(Supervised Fine-Tuning,SFT)检修阶段,这个设施不错教授模子基础的任务剖析与器具调用才略,同期尽可能保留其原有的推理才略。
在 SFT 阶段,要先将轨迹诊治为标记化输入,明确分隔符,然后盘算推算 Thought 和 Action 部分的亏蚀(忽略 Observation 噪声),亏蚀公式如下:

其中tc是任务凹凸文,为竣工的智能体推行轨迹,每个
代表念念考 / 行径 / 不雅察,过滤掉对应外部反馈的标记,确保亏蚀是在代理的自主决策设施上盘算推算的。
SFT 阶段为后续的 RL 阶段提供了浩瀚的开动化。
4、强化学习
这一步的主义是优化代理在确切汇注环境中的决策才略和泛化才略。
在 SFT 阶段的基础上,本阶段选拔解耦编订动态采样政策优化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)来精调政策模子。
DAPO 是一种基于奖励模子R的政策优化算法,其责任旨趣如下:
率先,关于每个包含部分谜底的阶段轨迹,算法生成一组候选推行序列。通过最大化以下主义更新政策:

随后,过采样并过滤准确率为 1 或 0 的指示(prompts),确保智能体聚焦于高质地信号的学习。
终末,选拔新旧政策的概率比替代固定 KL 科罚项:


奖励联想在 RL 检修过程中起着至关遑急的作用,WebDancer 的奖励机制主要由两种类型的奖励构成,远隔为体式奖励和谜底奖励,权重远隔为 0.1 和 0.9。
最终奖励函数为:
灵验性分析

在 GAIA 和 WebWalkerQA 这两个训练的基准数据集上测试 WebDancer,效劳流露,WebDancer 在 GAIA 上达到 46.6% 的平均准确率,WebWalkerQA 上达到 43.2%,优于基线模子和部分开源智能体框架。
不错看到,不具备代理才略的框架(No Agency)在 GAIA 和 WebWalkerQA 基准测试中均阐发欠安,这凸起了主动信息搜索和代理决策关于这些任务的遑急性。
闭源代理系统 OpenAI DR 通过端到端强化学习检修杀青了最高分,在开源框架中,基于原生强推理模子(如 QwQ-32B)构建的代理法子永远优于非代理对应法子,说明了在代理构建中专揽推理专用模子的灵验性。

在两个更具挑战性的数据集 BrowseComp(英文)和 BrowseComp-zh(汉文)上测试 WebDancer,均阐发出握续苍劲的性能,凸显了其在处理繁难推理和信息搜索任务中的鲁棒性和灵验性。

鉴于智能体环境的动态性和复杂性,以及 GAIA 测试集相对较小且变化较大的特质,对 Pass@3 和 Cons@3 进行细粒度分析。
值得提神的是,经过 RL 后的 Pass@1 性能与 SFT 基线的 Pass@3 额外,标明 RL 未必更灵验地采样正确反应。
关于言语推理模子(LRMs),诚然经过 RL 后 Pass@1、Pass@3 或 Cons@3 莫得显耀提高,但在一致性方面有显然的改善;这可能是过长轨迹导致的寥落奖励信号所致。
参考连气儿:
https://x.com/_akhaliq/status/1937997314737553873
论文:https://arxiv.org/abs/2505.22648
github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
模子:https://huggingface.co/Alibaba-NLP/WebDancer-32B
一键三连「点赞」「转发」「谨防心」
接待在挑剔区留住你的见识!
— 完 —
� � 量子位 AI 主题经营正在征结合!接待参与专题365 行 AI 落地决策,一千零一个 AI 应用,或与咱们共享你在寻找的 AI 家具,或发现的AI 新动向。
� � 也接待你加入量子位逐日 AI 疏导群,沿途来畅聊 AI 吧~
一键眷注 � � 点亮星标
科技前沿进展逐日见九游会J9
