九游会J9可不是一件简短的事情-九游娱乐(中国)网址在线

你的位置：九游娱乐(中国)网址在线 > 新闻中心 >

九游会J9可不是一件简短的事情-九游娱乐(中国)网址在线

发布日期：2026-06-18 15:00 点击次数：90

Agent 能"看懂网页"，像东说念主类不异上网？

阿里发布WebDancer，就像它的名字不异，为"汇注舞台"而生。

独一输入指示，它就不错帮你上网搜索、作念攻略，杀青自主信息检索代理和访佛深度究诘模子的推理。

传统模子只可按固定历程念念考，而 WebDancer 行动一个端到端的自主信息搜索智能体，具备多步推理、器具使用和泛化才略。

WebDancer 在 GAIA 和 WebWalkerQA 上远隔取得了 61.1% 和 54.6% 的 Pass@3 分数，优于基线模子和部分开源框架。

模子和法子均已开源，网友直呼想试：

WebDancer 的精巧火器

不同于其它的推理问答模子，WebDancer 要像东说念主类不异念念考、意会并操作，可不是一件简短的事情。

使用 GAIA、WebWalkerQA 和普通使用情况对 WebDancer 进行演示，不错看到，WebDancer 未必推行多设施和复杂推理的经久任务，举例网页遍历、信息搜索和问答。

它的"精巧火器"是一种四阶段检修范式，包括浏览数据构建、轨迹采样、针对灵验冷启动的监督微调以及用于阅兵泛化才略的强化学习。

阿里开源了这个检修框架，使除了 WebDancer 除外的智能代理也未必自主获取自主搜索和推理妙技：

1、浏览数据构建

这一步的主义是创建阴私确切的网页环境、需要多步交互的复杂 QA 对。

不错分为两个汇注数据生成历程，如上图所示。

在 CRAWLQA 中，需要先网罗常识性网站（ArXiv、GitHub、Wiki 等）的主 URL，然后在主页上系统场地击和网罗通过子连气儿可看望的子页面，模拟东说念主类步履。

使用预界说法例，就不错专揽 GPT4o 把柄网罗到的信息生成 QA 对（1.0 版）了。

关于 E2HQA ( Easy-to-Hard QA ) 来说，将开动的简短问题 Q1 通过实体检索→信息彭胀→问题重构的设施，使任务在复杂性上徐徐彭胀，简约单的实例到更具挑战性的实例。

照旧是使用 GPT-4o 重写问题，直到迭代达到 n，QA 对有余训练。

2、轨迹采样

这一步要从 QA 对中生成高质地的念念维 - 动作 - 不雅察（Thought-Action-Observation）推行轨迹。

WebDancer 的代理框架基于ReAct，这是言语代理最流行的法子，一个 ReAct 轨迹由多个念念维 - 动作 - 不雅察轮次构成：

在念念维阶段，模子会把柄输入生成推理链，然后在动作阶段将参数为结构化 JSON，终末在不雅察阶段复返效劳（如网页摘录或搜索片断）。

念念维阶段生成的念念维链对智能体推行十分遑急，WebDancer 选拔了双旅途采样的法子，可分为短念念维链和长念念维链两条旅途：

短念念维链适用于单设施任务，平直使用 GPT-4o 生成简略轨迹；

长念念维链适用于多设施任务，使用专用推理模子（LRMs、QwQ-Plus）生成带长链推理的轨迹。

因为 LRM、QwQ-Plus 在检修过程中莫得来回过多步推理输入，在进一步推理时，WebDancer 排斥了之前的念念维，但它们行动有价值的监督信号保留在了生成的轨迹中。

随后，WebDancer 选拔了一个基于漏斗的三阶段轨迹过滤框架，仅保留满足以下三个规范的轨迹：信息非冗余、主义一致性以及逻辑推理准确性。

3、有监督微调

在得回 ReAct 体式的优质轨迹后，就不错将其无缝整合到智能体的有监督微调（Supervised Fine-Tuning，SFT）检修阶段，这个设施不错教授模子基础的任务剖析与器具调用才略，同期尽可能保留其原有的推理才略。

在 SFT 阶段，要先将轨迹诊治为标记化输入，明确分隔符，然后盘算推算 Thought 和 Action 部分的亏蚀（忽略 Observation 噪声），亏蚀公式如下：

其中tc是任务凹凸文，为竣工的智能体推行轨迹，每个

代表念念考 / 行径 / 不雅察，过滤掉对应外部反馈的标记，确保亏蚀是在代理的自主决策设施上盘算推算的。

SFT 阶段为后续的 RL 阶段提供了浩瀚的开动化。

4、强化学习

这一步的主义是优化代理在确切汇注环境中的决策才略和泛化才略。

在 SFT 阶段的基础上，本阶段选拔解耦编订动态采样政策优化算法（Decoupled Clip and Dynamic Sampling Policy Optimization，DAPO）来精调政策模子。

DAPO 是一种基于奖励模子R的政策优化算法，其责任旨趣如下：

率先，关于每个包含部分谜底的阶段轨迹，算法生成一组候选推行序列。通过最大化以下主义更新政策：

随后，过采样并过滤准确率为 1 或 0 的指示（prompts），确保智能体聚焦于高质地信号的学习。

终末，选拔新旧政策的概率比替代固定 KL 科罚项：

奖励联想在 RL 检修过程中起着至关遑急的作用，WebDancer 的奖励机制主要由两种类型的奖励构成，远隔为体式奖励和谜底奖励，权重远隔为 0.1 和 0.9。

最终奖励函数为：

灵验性分析

在 GAIA 和 WebWalkerQA 这两个训练的基准数据集上测试 WebDancer，效劳流露，WebDancer 在 GAIA 上达到 46.6% 的平均准确率，WebWalkerQA 上达到 43.2%，优于基线模子和部分开源智能体框架。

不错看到，不具备代理才略的框架（No Agency）在 GAIA 和 WebWalkerQA 基准测试中均阐发欠安，这凸起了主动信息搜索和代理决策关于这些任务的遑急性。

闭源代理系统 OpenAI DR 通过端到端强化学习检修杀青了最高分，在开源框架中，基于原生强推理模子（如 QwQ-32B）构建的代理法子永远优于非代理对应法子，说明了在代理构建中专揽推理专用模子的灵验性。

在两个更具挑战性的数据集 BrowseComp（英文）和 BrowseComp-zh（汉文）上测试 WebDancer，均阐发出握续苍劲的性能，凸显了其在处理繁难推理和信息搜索任务中的鲁棒性和灵验性。

鉴于智能体环境的动态性和复杂性，以及 GAIA 测试集相对较小且变化较大的特质，对 Pass@3 和 Cons@3 进行细粒度分析。

值得提神的是，经过 RL 后的 Pass@1 性能与 SFT 基线的 Pass@3 额外，标明 RL 未必更灵验地采样正确反应。

关于言语推理模子（LRMs），诚然经过 RL 后 Pass@1、Pass@3 或 Cons@3 莫得显耀提高，但在一致性方面有显然的改善；这可能是过长轨迹导致的寥落奖励信号所致。

参考连气儿：

https://x.com/_akhaliq/status/1937997314737553873

论文：https://arxiv.org/abs/2505.22648

github：https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer

模子：https://huggingface.co/Alibaba-NLP/WebDancer-32B

一键三连「点赞」「转发」「谨防心」

接待在挑剔区留住你的见识！

— 完 —

� � 量子位 AI 主题经营正在征结合！接待参与专题365 行 AI 落地决策，一千零一个 AI 应用，或与咱们共享你在寻找的 AI 家具，或发现的AI 新动向。

� � 也接待你加入量子位逐日 AI 疏导群，沿途来畅聊 AI 吧～

一键眷注 � � 点亮星标

科技前沿进展逐日见九游会J9

上一篇：九游娱乐(中国)网址在线计谋可能会在一段本领内保执不变-九游娱乐(中国)网址在线

下一篇：j9九游会真人在张温了解的弱势伙伴里-九游娱乐(中国)网址在线

友情链接：