大家平时如何计算搜索结果准确率、召回率？

Elasticsearch | 作者 tygcs | 发布于2018年11月28日 | 阅读数：6221

最近在做搜索系统测试，参考了现有的一些评价方法。

我的疑问是，现在的搜索系统大多数据量非常大，当我们使用信息检索的评价方法，例如准确率、召回率、MAP、nCDG等，我们需要对文档和关键词进行一个是否相关的标注，例如：

当我们搜索苹果，返回了1万篇文档，一共100万篇文档，计算准确率、召回率则需要知道搜索结果中1万篇文档有多少篇与苹果相关；数据库中100万篇文档有多少篇与苹果相关。

当然，像谷歌、百度他们有用户点击数据可以作为标注的参考（但也不完全是），

但我们平时自己写的小系统用户点击数据量太小，我们很难标注所有文档是否与关键词相关；其次，搜索我们一般根据相似度匹配打分排序返回，那么一般来说所有的结果都应该是相关的，那么准确率岂不是100%了？

我想知道，大家在实际中是如何计算准确率、召回率的呢？