
研究(RL) +真实的搜索引擎可以有效地提高获取模型采集功能的巨大功能。但是问题是:一方面,搜索引擎返回的文档的质量很难预测,从而给培训过程带来了噪音和不均匀性。另一方面,RL训练需要经常部署,并且有许多API开销,并且严重限制了可扩展性。如今,表达了来自阿里巴巴Tgyyi实验室的解决方案:Zerararch的开放资源,该资源提供了一项强化研究,不需要与真实的搜索引擎接触。实验表明,Zerararch仅需要具有3B参数的LLM作为搜索模块,即可有效提高搜索功能并节省API的高成本。 ZeroSarch允许LLM“自给自足”来实现搜索演变。研究团队使用模拟的搜索环境 +渐进式反噪声培训,因此LLM不再依赖昂贵的搜索引擎API。轻巧的微调:turn llm进入“搜索引擎模拟器”,并使用少量注释的数据微调LLM,以便它可以根据说明可用的结果和噪声干扰生成两个文档。 ZeroSarch通过收集与真实搜索引擎联系的数据进行轻量级LLM调整。在此过程中,该模型学会生产类似于搜索引擎样式的文档,并且可以基于直接单词生成相关或嘈杂的文档。这种功能使模型可以动态调整培训期间文档的质量,因此最好模仿现实生活中的情况。基于课程的反噪声培训:练习模型,例如玩游戏以升级,并在第一阶段返回高质量的文档,并在下一阶段逐渐与噪声混合(根据指数曲线提高噪声比)。 Zerosarch引入了一种基于课程的研究机制,以降低生成的文档的质量和使模型逐渐从简单的搜索情况转变为更具挑战性的活动。这种方法不仅提高了模型推理的能力,而且还可以显着提高培训的稳定性和有效性。随着实践的持续,该模型逐渐符合更复杂的采集任务,并在Huli中找到了高质量文档之间的平衡。加强封闭循环的强化研究:自我生产和出售ZeroSearch生态系统完全消除了与真实搜索引擎接触的API成本,这使得在学习强化方面的培训更加经济和富有成效。此外,ZeroSarch与各种强化研究算法兼容,包括PPO(近端策略优化)和GRPO(组相对策略优化)。这些算法为模型提供了多种优化技术,从而使零核心在不同的模型和任务中可以很好地表现。实验表明grpo pe随着培训的稳定性,RFORMS可以更好地提高,而PPO在某些任务中提供了更大的灵活性。实验结果A的零API优势的结论不仅在经济中发现,还反映在训练的灵活性和可扩展性中。与图中的现有方法相比,ZeroSarch,我们可以清楚地看到ZeroSarch在许多问题和答案数据集中的性能。无论是单跳还是多跳的问答任务,零核心都比现有基线方法(包括直接信号,RAGS和SEERCH-R1)要好得多。它表明Zerosarch不仅在简单任务中表现良好,而且在获取复杂任务和答案的答案方面表现出色。上图显示了Llama-3.2-3B模型中的ZeroSearch和Search-R1奖励曲线(使用真实搜索引擎)的比较。 Zerosarch的研究曲线效率更高,最终比Search-R1更好,这使得TR期间的稳定性和效率装饰。不同模型尺寸的性能将看到具有7B参数的搜索模块可以实现与Google搜索相同的性能,而具有14B参数的搜索模块也可以超过Google搜索。它表明,零不仅适用于小型型号,而且还可以在大型模型中获得更大的潜力,从而为提高LLM采集功能提供了广泛的空间。与QWEN-2.5-3B和LLAMA-3.2-3B模型上使用PPO和GRPO算法对零型性能的研究算法比较,我们将看到ZeroSearch的兼容性与两项研究,PPO和GRPO的研究。实验结果表明,GRPO已经在训练的稳定性方面执行了better,而PPO在某些任务中提供了更大的灵活性。它表明Zerosarch能够适应各种强化研究算法,为研究人员提供了许多选择。通过限制搜索引擎,ZeroSarch完全删除了API成本,GRA双重地通过基于课程的学习技术来提高模型的意识。 Paper Sun Hao的第一作者目前是北京大学情报学院的四年级学生。他的研究方向着重于获取和增强Zhang Yan教授领导下的大量语言和代理模式。论文链接:https://arxiv.org/abs/2505.04588项目主页:https://alibaba-nlp.github.github.io/ ZeroSearch本文本文发源于Wechat pubicon帐户:Qubit:Qubit(ID:QBITAI),作者:Wen Le le le l le l le