用了Elasticsearch,一口气上5T

大家平时如何计算搜索结果准确率、召回率?

Elasticsearch | 作者 tygcs | 发布于2018年11月28日 | 阅读数:5491

最近在做搜索系统测试,参考了现有的一些评价方法。

我的疑问是,现在的搜索系统大多数据量非常大,当我们使用信息检索的评价方法,例如准确率、召回率、MAP、nCDG等,我们需要对文档和关键词进行一个是否相关的标注,例如:

当我们搜索苹果,返回了1万篇文档,一共100万篇文档,计算准确率、召回率则需要知道搜索结果中1万篇文档有多少篇与苹果相关;数据库中100万篇文档有多少篇与苹果相关。

当然,像谷歌、百度他们有用户点击数据可以作为标注的参考(但也不完全是),

但我们平时自己写的小系统用户点击数据量太小,我们很难标注所有文档是否与关键词相关;其次,搜索我们一般根据相似度匹配打分排序返回,那么一般来说所有的结果都应该是相关的,那么准确率岂不是100%了?

我想知道,大家在实际中是如何计算准确率、召回率的呢?
 
已邀请:

要回复问题请先登录注册