网站平台建设的作用网站模板模仿
2026/1/8 8:05:14 网站建设 项目流程
网站平台建设的作用,网站模板模仿,微妙音门户网站建设,中国建设银行河北省门户网站Search-R1#xff1a;用强化学习训练LLM推理并利用搜索引擎 今天#xff0c;我想和大家分享一篇发表于COLM 2025会议的论文#xff1a;《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》。这篇论文由来自伊利诺伊大学、麻省…Search-R1用强化学习训练LLM推理并利用搜索引擎今天我想和大家分享一篇发表于COLM 2025会议的论文《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning》。这篇论文由来自伊利诺伊大学、麻省大学安姆斯特分校和Google Cloud AI Research的团队共同完成作者包括Bowen Jin、Hansi Zeng等。论文探讨了如何让大语言模型LLM更好地结合搜索引擎进行推理和生成文本这在当下AI应用中非常实用。代码和模型检查点已在GitHub上开源https://github.com/PeterGriffinJin/Search-R1感兴趣的朋友可以去看看。为什么需要这个研究解决什么问题大语言模型如GPT系列或Qwen模型在自然语言理解和生成方面已经很强大但它们还是面临两大痛点复杂推理挑战LLM在处理需要多步逻辑推理的任务时容易出错或产生幻觉hallucination因为它们依赖预训练时的知识而这些知识可能不完整或过时。获取外部知识的局限现实世界的信息在不断更新LLM需要从外部来源如搜索引擎获取最新数据。但现有方法存在问题检索增强生成RAG通常基于输入查询一次性检索文档然后将它们塞进LLM的上下文。这种方法可能检索到无关信息或者无法处理需要多轮迭代的复杂查询。搜索引擎作为工具通过提示prompting或细调LLM来调用搜索引擎如ReAct或Toolformer。但提示方法泛化差因为LLM预训练时可能没见过类似任务训练方法则依赖大量高质量标注的交互轨迹而且搜索操作不可微分无法用梯度下降直接优化。简单来说LLM并不总是知道“如何最佳地使用搜索引擎”——比如什么时候搜索、搜索什么查询、如何基于检索结果调整推理。这导致推理过程次优尤其在需要多轮交互的场景中。论文指出强化学习RL在提升LLM纯推理能力如OpenAI o1或DeepSeek-R1上已证明有效但如何将其扩展到结合搜索引擎的场景仍面临稳定性、多轮交互和奖励设计三大挑战。Search-R1用了什么方法为了解决这些问题作者提出了Search-R1这是一个新型强化学习框架扩展了DeepSeek-R1的零样本风格仅用结果奖励训练让LLM在推理过程中自主调用搜索引擎。核心创新包括RL框架与搜索引擎集成将搜索引擎视为环境的一部分LLM在采样轨迹时交替进行令牌生成和检索调用。优化目标是最大化奖励同时用KL散度正则化以防止过度偏离参考模型。支持PPOProximal Policy Optimization和GRPOGroup Relative Policy Optimization两种RL算法。GRPO更稳定因为它用组内平均奖励作为基线而非额外价值函数。检索令牌掩码Loss Masking在计算损失时只优化LLM生成的令牌忽略检索到的内容。这避免了不必要的学习动态提高训练稳定性。多轮交替推理与搜索LLM使用特殊令牌结构化输出think和/think包裹推理步骤search和/search触发搜索查询information和/information插入检索结果answer和/answer给出最终答案。过程迭代进行LLM生成文本如果需要知识就输出搜索查询系统提取查询、调用搜索引擎、插入结果继续生成。最多支持多轮调用直到达到预算或生成答案。这允许LLM动态调整检索策略适合复杂问题如多跳问答。奖励设计采用简单基于结果的奖励只评估最终答案的正确性如精确匹配EM不涉及过程奖励。这避免了复杂设计却能引导LLM学习有效搜索行为。无需神经奖励模型减少计算开销。训练模板很简单指导LLM先推理如果缺知识就搜索否则直接回答。论文强调这种最小约束让RL的自然学习动态更明显。从论文附图中例如Figure 1我们可以看到PPO和GRPO的训练流程LLM rollout中交织多轮搜索优化只针对LLM部分。实验结果与洞见作者在七个问答数据集上测试包括NQ、TriviaQA、HotpotQA等涵盖一般和多跳QA。使用Qwen2.5-3B和7B模型检索器为E5知识源为2018 Wikipedia。性能提升Search-R1比各种RAG基线平均提升24%7B模型和20%3B模型。在分布内NQ、HotpotQA和分布外数据集上均有效。与基线比较优于纯推理RLR1无搜索、拒绝采样和提示方法如IRCoT、Search-o1。更大模型7B在学习搜索上更强。洞见RL方法选择GRPO比PPO更稳定。LLM选择适用于基础和指令调优模型。响应长度Search-R1生成更长的推理但更准确。检索文档数影响3个文档已足够更多不一定更好。结语为什么值得关注Search-R1展示了RL如何让LLM从“被动检索”转向“主动搜索与推理”这对构建更智能的AI代理如聊天机器人或知识问答系统有启发。相比传统RAG它更灵活、更高效尤其在实时信息获取场景中。未来可以探索更复杂的奖励或与其他工具集成。E5检索器E5检索器指的是E5模型这是一个由Microsoft研究者Wang et al., 2022开发的文本嵌入模型家族全称为“Embeddings for Efficient Embedding-based Retrieval”或类似专为文本检索任务设计。它基于Transformer架构通过弱监督对比预训练生成高质量的文本向量表示这些向量可以用于计算查询和文档之间的语义相似度从而实现高效的检索。在论文的实验设置中E5被用作检索器retriever但它并不会像谷歌搜索引擎那样实时从互联网上检索知识。相反它是从一个固定的、预构建的知识源——2018年的Wikipedia转储dump中进行检索。具体来说首先使用E5模型将Wikipedia中的所有文档编码成向量并构建一个向量索引例如使用FAISS或其他向量数据库。当有查询时E5将查询编码成向量然后在向量空间中搜索最相似的文档通常基于余弦相似度或内积。这是一种离线、语义检索方式专注于从本地语料库中提取相关段落而不是动态爬取网页或访问实时互联网数据。与谷歌搜索引擎不同谷歌是基于关键字、PageRank等算法从整个互联网索引中实时搜索而E5在这里是嵌入式的、针对固定数据集的工具更适合RAGRetrieval-Augmented Generation框架中的知识增强。它确实会“检索知识”但仅限于预定义的Wikipedia内容不会涉及外部网络访问或更新信息。实验部分论文的实验部分Section 4: Main Results详细描述了Search-R1框架的评估过程包括数据集选择、基线方法、实验设置和性能结果。以下我将基于论文内容逐步解释实验是如何进行的以及使用了哪些训练集和测试集。实验旨在验证Search-R1在检索增强推理任务上的有效性特别是与各种基线方法的比较。整个实验使用统一的设置如相同的检索模型、训练数据和预训练LLM以确保公平性。1. 实验整体设计目标评估Search-R1在问答QA任务上的性能重点考察其在一般QA和多跳QA场景中的表现。实验包括零样本推理无训练和学习型检索通过RL微调的比较。模型选择使用两种Qwen-2.5系列模型Qwen-2.5-3BBase和Instruct版本。Qwen-2.5-7BBase和Instruct版本。对于推理式基线使用Instruct模型因为Base模型无法有效遵循指令对于RL微调方法则同时测试Base和Instruct模型。检索设置知识源2018年Wikipedia转储dump作为固定语料库非实时互联网搜索。检索器E5模型一个嵌入式检索模型用于计算查询与文档的语义相似度。检索文档数统一设置为3个段落passages。论文附录G中讨论了不同文档数的敏感性分析。RL算法默认使用PPOProximal Policy Optimization并在Section 5.1中与GRPOGroup Relative Policy Optimization比较。训练使用简单的基于结果的奖励outcome-based reward如精确匹配Exact Match, EM。评估指标Exact Match (EM)即最终答案与ground truth的字符串精确匹配。其他细节训练和推理均在统一数据集上进行。实验考察了分布内in-domain如NQ和HotpotQA和分布外out-of-domain如其他数据集的泛化能力。论文还提供了洞见如RL方法选择GRPO更稳定、模型大小影响7B模型在学习搜索行为上更优和响应长度分析。2. 使用的训练集训练数据论文将NQNatural Questions和HotpotQA的训练集合并形成一个统一的训练数据集。NQ一个一般QA数据集包含真实用户查询和Wikipedia答案。HotpotQA一个多跳QA数据集需要多步推理和跨文档信息整合。为什么合并为了覆盖一般QA和多跳QA的多样性同时保持训练数据的规模适中。所有微调基线如SFT、R1、拒绝采样也使用相同训练数据。训练过程使用Search-R1框架进行RL优化LLM在rollout中交替生成推理和搜索查询。无额外格式奖励仅用最终答案正确性作为奖励信号。3. 使用的测试集评估数据集在7个基准数据集的测试集或验证集上进行评估。这些数据集分为两类一般问答General Question AnsweringNQ (Natural Questions, Kwiatkowski et al., 2019)测试/验证集焦点是事实性查询。TriviaQA (Joshi et al., 2017)测试/验证集包含琐事知识问题。PopQA (Mallen et al., 2022)测试/验证集长尾流行实体查询。多跳问答Multi-Hop Question AnsweringHotpotQA (Yang et al., 2018)测试/验证集需要多步推理。2WikiMultiHopQA (Ho et al., 2020)测试/验证集基于Wikipedia的多跳问题。Musique (Trivedi et al., 2022b)测试/验证集音乐相关多跳QA。Bamboogle (Press et al., 2022)测试/验证集挑战性多跳问题。为什么这些数据集它们覆盖了检索与推理的多样挑战包括事实检索、多步逻辑和外部知识依赖。NQ和HotpotQA用于分布内评估其他用于考察泛化。4. 基线方法Baselines为了对比实验设置了多类基线所有基线使用相同检索器、文档数和知识源无检索推理直接推理Direct inference和链式思考Chain-of-Thought, CoT。带检索推理RAGRetrieval-Augmented Generation、IRCoTIterative Retrieval CoT、Search-o1。微调方法监督微调SFT、无检索RLR1基于DeepSeek-R1风格仅推理无搜索、带检索拒绝采样Rejection Sampling使用相同多轮交互机制。5. 主要结果与观察性能Search-R1在Qwen-2.5-7B上比RAG基线平均提升24%在3B上提升20%。在Table 2中展示了详细EM分数。关键观察Search-R1优于无检索RLR1证明搜索集成提升了外部知识利用。适用于Base和Instruct模型扩展了DeepSeek-R1的零样本RL风格。更大模型7B在学习搜索行为上表现更好与第二佳模型RAG的性能差距更大。实验还包括附录分析如检索文档数影响3个已足够和响应长度动态Search-R1生成更长但更准确的推理。总体而言实验通过控制变量如统一数据和设置证明了Search-R1的有效性。如果需要更详细的Table 2数据或附录内容我可以进一步查阅论文。后记2025年12月18日于上海。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询