要不要也来分享分享一下啊

对于norms的概念要如何理解呢

Elasticsearch | 作者 codesunshine | 发布于2021年07月01日 | 阅读数:2770

在学习Elasticsearch的时候,官方文档里有一句Norms are index-time scoring factors.,Norms是指什么意思?index-time是指索引的时候,还是索引时间呢?
已邀请:

BetterLevi

赞同来自:

1. Norms是什么意思?
norms是一类信息的统称,这类信息是指被分词后的term的一些信息,比如term的长度,出现的频率等等,用来计算文档的相似性分数。ES常用的相似性算法有两种:TF-IDF和BM25算法。
TF-IDF算法:一个词汇的权重=TF*IDF。
TF指词汇频率,即词汇在文档中出现的次数;IDF指逆文档频率,IDF = log(N/n),其中N表示文档集合中共有多少个文档,n表示该词汇在其中多少个文档中出现过,由这个公式可以看出,当一个词汇在越多的文档中出现,那么它的权重会越小(也就是说当每个文档都包含某个词汇时,那么这个词汇对于文档检索就没啥用了,IDF=0)。
BM25算法:这个算法的公式比较复杂,就不列出来了。这个算法会考虑到四个因素:IDF,文档长度因子,文档词频和查询词频。这些因子其实就可以看作是上面提到的norms。
 
2. Index-time指什么?
index-time是指索引文档的(即查询)时候。

要回复问题请先登录注册