向量搜索的成本结构正在被重新定义。
Vespa 和 Voyage AI 联合推出了一种新的检索范式:非对称检索(Asymmetric Retrieval)。它的核心洞察简单却深刻——文档嵌入和查询嵌入的成本结构完全不同,为什么要用同样的模型处理两者?
成本结构的残酷现实
想象一个日活百万的搜索服务:
- 10,000 QPS(每秒查询数)
- 每个查询约 30 个 token
- 每月需要嵌入 7770 亿个 token
- 按 $0.02/百万 token 计算:
仅查询嵌入成本:$15,500/月
这还只是嵌入 API 的费用,不包括存储、计算、网络等其他开销。
而文档嵌入呢?假设你有 1000 万篇文档,每篇平均 500 token:
- 一次性嵌入成本:$100
- 之后不再需要嵌入
文档嵌入是一次性投资,查询嵌入是持续性开销。
非对称检索的核心洞察
传统方法的对称性假设:
文档 → 大模型嵌入 → 向量空间 ← 大模型嵌入 ← 查询
非对称检索的解耦思路:
文档 → 大模型嵌入(voyage-4-large)→ 向量空间 ← 小模型嵌入(voyage-4-nano)← 查询
关键洞察:
- 文档嵌入是离线的、一次性的、对延迟不敏感的——可以用最贵、最准的模型
- 查询嵌入是在线的、持续的、对延迟敏感的——需要快速、低成本
Voyage AI 的 voyage-4 系列模型让这种非对称成为可能:四个模型(large/standard/lite/nano)共享同一个向量空间,可以任意组合使用。
成本对比:从 $15,500 到 $0
| 方案 | 查询嵌入成本/月 | 延迟 | 质量 |
|---|---|---|---|
| 传统对称(大模型) | $15,500 | 高(API 调用) | 最佳 |
| 非对称(大模型文档 + nano 查询) | $0 | 低(本地 CPU) | 接近最佳 |
节省的成本不是通过降低质量实现的,而是通过把计算从云端 API 转移到本地 CPU。
voyage-4-nano 是一个轻量级模型,可以在 Vespa 容器内本地运行,单次推理仅需几毫秒。
质量如何保证?
非对称检索最大的质疑是:小模型嵌入的查询,能准确匹配大模型嵌入的文档吗?
Voyage AI 的实验数据给出了答案:
在 MTEB 基准测试(29 个检索数据集,NDCG@10)上:
| 对比 | 提升 |
|---|---|
| vs. Gemini Embedding 001 | +3.87% |
| vs. Cohere Embed v4 | +8.20% |
| vs. OpenAI v3 Large | +14.05% |
更重要的是,非对称检索(大模型文档 + nano 查询)在医疗、代码、网页、金融、法律等多个领域都保持了接近全大模型的检索质量。
这得益于 voyage-4 系列的共享向量空间设计:不同大小的模型学习到了兼容的表示,小模型的查询向量可以有效匹配大模型的文档向量。
工程实现的关键
Vespa 对非对称检索的原生支持,解决了几个生产环境的关键问题:
1. 独立扩缩容
Vespa 将无状态容器(运行嵌入)与内容集群(存储数据)分离:
- 需要更高 QPS?增加容器节点
- 需要更多文档?增加内容节点
- 两者互不干扰
2. 查询路径无外部依赖
传统方案的问题:
用户查询 → 你的服务 → 嵌入 API → 返回向量 → 向量检索 → 返回结果
任何一环的网络延迟或故障,都会影响用户体验。
非对称检索的方案:
用户查询 → 你的服务(本地嵌入)→ 向量检索 → 返回结果
嵌入在容器内完成,没有外部 API 调用,延迟可控,可用性更高。
3. 灵活的升级路径
共享向量空间的另一个好处:可以独立升级查询模型。
- 初期:使用 voyage-4-nano 控制成本
- 增长期:升级到 voyage-4-lite 提升质量
- 成熟期:针对特定租户使用 voyage-4-large
无需重新嵌入任何文档,只需更换查询端的模型。
对搜索架构的启示
非对称检索的流行,标志着向量搜索正在从"技术验证"走向"成本优化"阶段。
1. 成本意识成为架构设计的一等公民
早期的向量搜索只关注准确率和延迟,现在成本成为同等重要的指标。非对称检索是在质量、延迟、成本三者之间的优雅平衡。
2. 模型即基础设施
voyage-4-nano 运行在 Vespa 容器内,意味着嵌入模型成为基础设施的一部分,而不是外部依赖。这对运维和成本控制都是重大利好。
3. 多租户场景的天然适配
在多租户系统中,可以为不同租户配置不同的文档嵌入策略:
- 付费用户:voyage-4-large 文档嵌入
- 免费用户:voyage-4-lite 文档嵌入
所有租户共享相同的查询路径,但获得不同的检索质量。
局限与适用场景
非对称检索并非万能:
- 需要共享向量空间:只有同一模型家族的模型才能非对称组合
- 查询质量上限:小模型的查询表示能力有上限,极端复杂查询可能不如大模型
- 自托管成本:虽然省了 API 费用,但需要在容器内运行模型,增加了计算资源需求
最适合的场景:
- 高 QPS、查询成本敏感的应用
- 对延迟要求严格的实时搜索
- 希望减少外部依赖、提高可用性的系统
在 AI 搜索的成本优化之路上,非对称检索提供了一个新思路:不是降低质量来省钱,而是把计算移到更合适的地方。
当文档嵌入用最强模型、查询嵌入用本地轻量模型成为标配,向量搜索的经济学将被彻底改写。
来源: Vespa Blog (March 10, 2026)
相关: Voyage AI voyage-4 发布
技术要点: 非对称检索、成本优化、向量搜索、模型蒸馏
本文地址:http://elasticsearch.cn/article/15726