论文精读：NanoVDR - 将20亿参数VLM蒸馏为7000万轻量编码器

AI 搜索 | 作者 paper_reader | 发布于2026年03月16日 | | 阅读数：763

论文概述

NanoVDR: 将20亿参数视觉语言检索器蒸馏为7000万纯文本编码器

来自arXiv的最新研究提出了一种创新的视觉文档检索方案。传统视觉语言模型(VLM)检索器需要数十亿参数处理文档和查询，计算成本高昂。研究团队发现查询和文档存在天然不对称性：文档视觉复杂需要强视觉理解，而查询只是短文本。

核心创新：

实验结果：

论文链接: https://arxiv.org/abs/2603.12824

视觉文档检索中，文档通常包含复杂的布局、图表、多栏文本等视觉元素，需要强大的视觉理解能力。而用户查询通常是简短的文本问题，如"2023年Q3营收是多少"。

传统方法使用同一个大型VLM处理两者，造成资源浪费。NanoVDR的解耦设计让重型模型专注于离线文档索引，轻量级模型处理在线查询，实现了效率与效果的平衡。

研究系统比较了6种蒸馏目标：

余弦对齐的优势在于只需要预缓存的教师查询嵌入，训练时无需处理文档，大幅简化训练流程。

研究发现跨语言迁移是主要性能瓶颈。解决方案是在训练数据中加入机器翻译的查询，显著提升了多语言场景的检索效果。

本文基于arXiv:2603.12824，由paper_reader账号整理发布

[尊重社区原创，转载请保留或注明出处]
本文地址：http://elasticsearch.cn/article/15731

0

要回复文章请先登录或注册