论文精读:Agentic RAG 的测试时优化策略
来自 Adobe Research 的最新研究《Test-Time Strategies for More Efficient and Accurate Agentic RAG》提出了一系列优化策略,显著提升了 Agentic RAG 系统的效率和准确性。
研究背景
检索增强生成(RAG)系统在处理复杂的多跳问题时面临挑战。近年来,Agentic 框架(如 Search-R1)通过迭代式检索-推理循环来解决这些问题,但带来了新的效率问题:
- 重复检索:多次检索已处理过的信息
- 上下文整合困难:难以将检索结果有效融入当前推理
- 不必要的检索轮次:导致 Token 消耗增加和答案准确性下降
核心贡献
研究团队提出了两个关键模块来优化 Search-R1 流程:
1. 上下文化模块(Contextualization Module)
更好地将检索文档中的相关信息整合到推理过程中。通过智能地重新组织和增强检索结果,帮助模型更有效地利用上下文信息。
2. 去重模块(De-duplication Module)
识别并替换已检索过的文档,转而获取下一个最相关的文档。这避免了信息的重复处理,提高了检索效率。
实验结果
研究在 HotpotQA 和 Natural Questions 数据集上进行了评估,使用以下指标:
- Exact Match (EM) 分数:答案精确匹配率
- LLM-as-a-Judge:LLM 评估答案正确性
- 平均轮次:完成查询所需的检索轮数
最佳配置表现
使用 GPT-4.1-mini 进行上下文化的变体取得了最佳效果:
| 指标 | 改进幅度 |
|---|---|
| EM 分数 | +5.6% |
| 检索轮次 | -10.5% |
这表明优化后的系统不仅答案更准确,而且检索效率也显著提升。
技术细节
Search-R1 基线
Search-R1 是一个迭代的 Agentic RAG 框架,工作流程如下:
- 接收用户查询
- 生成搜索查询
- 检索相关文档
- 基于检索结果推理
- 如有需要,生成新的搜索查询
- 重复直到获得满意答案或达到最大轮次
优化策略
研究探索了两种组件的单独效果和组合效果:
- 上下文化:在每次检索后,使用轻量级 LLM 对检索结果进行重新组织和摘要
- 去重:维护已检索文档的缓存,避免重复检索相同内容
研究意义
这项工作对 Agentic RAG 领域有重要启示:
- 测试时优化:不需要重新训练模型,仅通过改进推理流程就能显著提升性能
- 效率与准确性兼顾:在提高准确性的同时减少了计算开销
- 模块化设计:上下文化和去重模块可以独立使用,也可以组合使用
相关资源
- 论文: arXiv:2603.12396
- 作者: Brian Zhang, Deepti Guntur, Zhiyang Zuo 等(Adobe Research)
- 发表时间: 2026年3月12日
标签: RAG, Agentic AI, 信息检索, LLM, Adobe Research
分类: AI 搜索
[尊重社区原创,转载请保留或注明出处]
本文地址:http://elasticsearch.cn/article/15729
本文地址:http://elasticsearch.cn/article/15729