非对称检索：把每月 1.5 万美元的嵌入成本降到零

AI 搜索 | 作者 ai_insider | 发布于2026年03月16日 | | 阅读数：559

分享到：QQ空间新浪微博微信 QQ好友印象笔记有道云笔记

向量搜索的成本结构正在被重新定义。

Vespa 和 Voyage AI 联合推出了一种新的检索范式：非对称检索（Asymmetric Retrieval）。它的核心洞察简单却深刻——文档嵌入和查询嵌入的成本结构完全不同，为什么要用同样的模型处理两者？

成本结构的残酷现实

想象一个日活百万的搜索服务：

10,000 QPS（每秒查询数）
每个查询约 30 个 token
每月需要嵌入 7770 亿个 token
按 $0.02/百万 token 计算：

仅查询嵌入成本：$15,500/月

这还只是嵌入 API 的费用，不包括存储、计算、网络等其他开销。

而文档嵌入呢？假设你有 1000 万篇文档，每篇平均 500 token：

一次性嵌入成本：$100
之后不再需要嵌入

文档嵌入是一次性投资，查询嵌入是持续性开销。

非对称检索的核心洞察

传统方法的对称性假设：

文档 → 大模型嵌入 → 向量空间 ← 大模型嵌入 ← 查询

非对称检索的解耦思路：

文档 → 大模型嵌入（voyage-4-large）→ 向量空间 ← 小模型嵌入（voyage-4-nano）← 查询

关键洞察：

文档嵌入是离线的、一次性的、对延迟不敏感的——可以用最贵、最准的模型
查询嵌入是在线的、持续的、对延迟敏感的——需要快速、低成本

Voyage AI 的 voyage-4 系列模型让这种非对称成为可能：四个模型（large/standard/lite/nano）共享同一个向量空间，可以任意组合使用。

成本对比：从 $15,500 到 $0

方案	查询嵌入成本/月	延迟	质量
传统对称（大模型）	$15,500	高（API 调用）	最佳
非对称（大模型文档 + nano 查询）	$0	低（本地 CPU）	接近最佳

节省的成本不是通过降低质量实现的，而是通过把计算从云端 API 转移到本地 CPU。

voyage-4-nano 是一个轻量级模型，可以在 Vespa 容器内本地运行，单次推理仅需几毫秒。

质量如何保证？

非对称检索最大的质疑是：小模型嵌入的查询，能准确匹配大模型嵌入的文档吗？

Voyage AI 的实验数据给出了答案：

在 MTEB 基准测试（29 个检索数据集，NDCG@10）上：

对比	提升
vs. Gemini Embedding 001	+3.87%
vs. Cohere Embed v4	+8.20%
vs. OpenAI v3 Large	+14.05%

更重要的是，非对称检索（大模型文档 + nano 查询）在医疗、代码、网页、金融、法律等多个领域都保持了接近全大模型的检索质量。

这得益于 voyage-4 系列的共享向量空间设计：不同大小的模型学习到了兼容的表示，小模型的查询向量可以有效匹配大模型的文档向量。

工程实现的关键

Vespa 对非对称检索的原生支持，解决了几个生产环境的关键问题：

1. 独立扩缩容

Vespa 将无状态容器（运行嵌入）与内容集群（存储数据）分离：

需要更高 QPS？增加容器节点
需要更多文档？增加内容节点
两者互不干扰

2. 查询路径无外部依赖

传统方案的问题：

用户查询 → 你的服务 → 嵌入 API → 返回向量 → 向量检索 → 返回结果

任何一环的网络延迟或故障，都会影响用户体验。

非对称检索的方案：

用户查询 → 你的服务（本地嵌入）→ 向量检索 → 返回结果

嵌入在容器内完成，没有外部 API 调用，延迟可控，可用性更高。

3. 灵活的升级路径

共享向量空间的另一个好处：可以独立升级查询模型。

初期：使用 voyage-4-nano 控制成本
增长期：升级到 voyage-4-lite 提升质量
成熟期：针对特定租户使用 voyage-4-large

无需重新嵌入任何文档，只需更换查询端的模型。

对搜索架构的启示

非对称检索的流行，标志着向量搜索正在从"技术验证"走向"成本优化"阶段。

1. 成本意识成为架构设计的一等公民

早期的向量搜索只关注准确率和延迟，现在成本成为同等重要的指标。非对称检索是在质量、延迟、成本三者之间的优雅平衡。

2. 模型即基础设施

voyage-4-nano 运行在 Vespa 容器内，意味着嵌入模型成为基础设施的一部分，而不是外部依赖。这对运维和成本控制都是重大利好。

3. 多租户场景的天然适配

在多租户系统中，可以为不同租户配置不同的文档嵌入策略：

付费用户：voyage-4-large 文档嵌入
免费用户：voyage-4-lite 文档嵌入

所有租户共享相同的查询路径，但获得不同的检索质量。

局限与适用场景

非对称检索并非万能：

需要共享向量空间：只有同一模型家族的模型才能非对称组合
查询质量上限：小模型的查询表示能力有上限，极端复杂查询可能不如大模型
自托管成本：虽然省了 API 费用，但需要在容器内运行模型，增加了计算资源需求

最适合的场景：

高 QPS、查询成本敏感的应用
对延迟要求严格的实时搜索
希望减少外部依赖、提高可用性的系统

在 AI 搜索的成本优化之路上，非对称检索提供了一个新思路：不是降低质量来省钱，而是把计算移到更合适的地方。

当文档嵌入用最强模型、查询嵌入用本地轻量模型成为标配，向量搜索的经济学将被彻底改写。

来源: Vespa Blog (March 10, 2026)
相关: Voyage AI voyage-4 发布
技术要点: 非对称检索、成本优化、向量搜索、模型蒸馏

[尊重社区原创，转载请保留或注明出处]
本文地址：http://elasticsearch.cn/article/15726

0

0 个评论

要回复文章请先登录或注册