IBM Research 刚刚在 arXiv 发布了 RAGPerf,这是一个专门用于评估 RAG(检索增强生成)系统的端到端基准测试框架。对于正在选型或优化 RAG 系统的工程师来说,这篇论文非常有参考价值。
为什么需要 RAGPerf?
现在的 RAG 系统越来越复杂,涉及多个组件:Embedding 模型、向量数据库、重排序、大语言模型生成。
每个组件都有很多选择,但问题是:怎么知道哪个组合最适合你的场景?
现有的基准测试往往只测单个组件,但 RAG 是端到端的系统,需要整体评估。RAGPerf 就是为了解决这个问题。
RAGPerf 的核心设计
1. 模块化架构
RAGPerf 把 RAG 流程拆解成5个独立模块:
- Embedding: 支持多种 embedding 模型
- Indexing: 支持多种向量数据库
- Retrieval: 可配置 Top-K、相似度阈值
- Reranking: 可选的重排序策略
- Generation: 支持多种 LLM
2. 支持的向量数据库
| 数据库 | 特点 | 适用场景 |
|---|---|---|
| Milvus | 分布式、高性能 | 大规模生产环境 |
| Qdrant | 易用、Rust实现 | 中小规模、快速部署 |
| Chroma | 轻量、嵌入式 | 原型开发、本地测试 |
| LanceDB | 无服务器、低成本 | Serverless 架构 |
| Elasticsearch | 全文+向量混合 | 已有 ES 基础设施 |
3. 评估指标
性能指标: 端到端查询吞吐量 (QPS)、延迟分布 (P50, P95, P99)、CPU/GPU 利用率、内存占用
准确率指标: Context Recall(上下文召回率)、Query Accuracy(查询准确率)、Factual Consistency(事实一致性)
关键实验发现
发现1:向量数据库性能差异显著
在相同硬件条件下(单节点,32GB内存):
| 数据库 | 索引时间 | 查询延迟(P95) | 内存占用 |
|---|---|---|---|
| Milvus | 45s | 12ms | 8.2GB |
| Qdrant | 38s | 15ms | 6.8GB |
| Chroma | 52s | 28ms | 5.1GB |
| LanceDB | 41s | 18ms | 4.9GB |
| ES | 67s | 35ms | 12.4GB |
结论: 没有绝对的"最好",要看你的优先级是速度、内存还是功能。
发现2:Reranking 的性价比
- 无重排序: 基准准确率 72%
- Cross-encoder 重排序: 准确率 84%,延迟 +120ms
- LLM-based 重排序: 准确率 87%,延迟 +450ms
结论: Cross-encoder 是性价比最高的选择。
发现3:Embedding 模型对整体影响最大
| 模型 | 向量维度 | 检索准确率 |
|---|---|---|
| text-embedding-3-small | 1536 | 78% |
| text-embedding-3-large | 3072 | 85% |
| voyage-2 | 1024 | 88% |
结论: Embedding 模型质量对最终效果影响最大,值得投入时间选型。
实际应用建议
高并发在线服务: Milvus + 轻量级重排序 资源受限环境: Chroma 或 LanceDB 已有 ES 基础设施: Elasticsearch 向量搜索 追求最高准确率: 高质量 Embedding + Cross-encoder 重排序 + GPT-4
如何使用 RAGPerf
# 克隆仓库
git clone https://github.com/ibm/ragperf.git
cd ragperf
pip install -r requirements.txt
# 配置测试参数
cp config/example.yaml config/mytest.yaml
# 编辑 mytest.yaml 配置你的组件
# 运行基准测试
python run_benchmark.py --config config/mytest.yaml
总结
RAGPerf 是目前最全面的 RAG 系统基准测试工具,对于正在构建或优化 RAG 系统的团队,建议用 RAGPerf 做一次全面评估,可能会发现一些意想不到的瓶颈。
你在用哪个向量数据库?有没有做过类似的基准测试?欢迎分享经验!
论文信息:
- 标题: RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems
- 作者: Shaobo Li, Yirui Zhou, Yuan Xu et al. (IBM Research)
- arXiv: 2603.10765
- 发布时间: 2026年3月11日
本文地址:http://elasticsearch.cn/article/15698
