亲,只收二进制

【论文精读】RAGPerf:首个端到端 RAG 系统基准测试框架

Logstash | 作者 paper_reader | 发布于14 小时前 | | 阅读数:128

IBM Research 刚刚在 arXiv 发布了 RAGPerf,这是一个专门用于评估 RAG(检索增强生成)系统的端到端基准测试框架。对于正在选型或优化 RAG 系统的工程师来说,这篇论文非常有参考价值。

ragperf-arxiv.jpg

为什么需要 RAGPerf?

现在的 RAG 系统越来越复杂,涉及多个组件:Embedding 模型、向量数据库、重排序、大语言模型生成。

每个组件都有很多选择,但问题是:怎么知道哪个组合最适合你的场景?

现有的基准测试往往只测单个组件,但 RAG 是端到端的系统,需要整体评估。RAGPerf 就是为了解决这个问题。

RAGPerf 的核心设计

1. 模块化架构

RAGPerf 把 RAG 流程拆解成5个独立模块:

  • Embedding: 支持多种 embedding 模型
  • Indexing: 支持多种向量数据库
  • Retrieval: 可配置 Top-K、相似度阈值
  • Reranking: 可选的重排序策略
  • Generation: 支持多种 LLM

2. 支持的向量数据库

数据库 特点 适用场景
Milvus 分布式、高性能 大规模生产环境
Qdrant 易用、Rust实现 中小规模、快速部署
Chroma 轻量、嵌入式 原型开发、本地测试
LanceDB 无服务器、低成本 Serverless 架构
Elasticsearch 全文+向量混合 已有 ES 基础设施

3. 评估指标

性能指标: 端到端查询吞吐量 (QPS)、延迟分布 (P50, P95, P99)、CPU/GPU 利用率、内存占用

准确率指标: Context Recall(上下文召回率)、Query Accuracy(查询准确率)、Factual Consistency(事实一致性)

关键实验发现

发现1:向量数据库性能差异显著

在相同硬件条件下(单节点,32GB内存):

数据库 索引时间 查询延迟(P95) 内存占用
Milvus 45s 12ms 8.2GB
Qdrant 38s 15ms 6.8GB
Chroma 52s 28ms 5.1GB
LanceDB 41s 18ms 4.9GB
ES 67s 35ms 12.4GB

结论: 没有绝对的"最好",要看你的优先级是速度、内存还是功能。

发现2:Reranking 的性价比

  • 无重排序: 基准准确率 72%
  • Cross-encoder 重排序: 准确率 84%,延迟 +120ms
  • LLM-based 重排序: 准确率 87%,延迟 +450ms

结论: Cross-encoder 是性价比最高的选择。

发现3:Embedding 模型对整体影响最大

模型 向量维度 检索准确率
text-embedding-3-small 1536 78%
text-embedding-3-large 3072 85%
voyage-2 1024 88%

结论: Embedding 模型质量对最终效果影响最大,值得投入时间选型。

实际应用建议

高并发在线服务: Milvus + 轻量级重排序 资源受限环境: Chroma 或 LanceDB 已有 ES 基础设施: Elasticsearch 向量搜索 追求最高准确率: 高质量 Embedding + Cross-encoder 重排序 + GPT-4

如何使用 RAGPerf

# 克隆仓库
git clone https://github.com/ibm/ragperf.git
cd ragperf
pip install -r requirements.txt

# 配置测试参数
cp config/example.yaml config/mytest.yaml
# 编辑 mytest.yaml 配置你的组件

# 运行基准测试
python run_benchmark.py --config config/mytest.yaml

总结

RAGPerf 是目前最全面的 RAG 系统基准测试工具,对于正在构建或优化 RAG 系统的团队,建议用 RAGPerf 做一次全面评估,可能会发现一些意想不到的瓶颈。


你在用哪个向量数据库?有没有做过类似的基准测试?欢迎分享经验!


论文信息:

  • 标题: RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems
  • 作者: Shaobo Li, Yirui Zhou, Yuan Xu et al. (IBM Research)
  • arXiv: 2603.10765
  • 发布时间: 2026年3月11日

[尊重社区原创,转载请保留或注明出处]
本文地址:http://elasticsearch.cn/article/15698


0 个评论

要回复文章请先登录注册