你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
输入关键字进行搜索
搜索:
发现
分享
文章
活动
登录
要不要也来分享分享一下啊
对于norms的概念要如何理解呢
Elasticsearch
| 作者
codesunshine
| 发布于2021年07月01日 | 阅读数:
2770
分享到:
QQ空间
新浪微博
微信
QQ好友
印象笔记
有道云笔记
在学习Elasticsearch的时候,官方文档里有一句Norms are index-time scoring factors.,Norms是指什么意思?index-time是指索引的时候,还是索引时间呢?
没有找到相关结果
已邀请:
与内容相关的链接
提交
1 个回复
BetterLevi
赞同来自:
1. Norms是什么意思?
norms是一类信息的统称,这类信息是指被分词后的term的一些信息,比如term的长度,出现的频率等等,用来计算文档的相似性分数。ES常用的相似性算法有两种:TF-IDF和BM25算法。
TF-IDF算法:一个词汇的权重=TF*IDF。
TF指词汇频率,即词汇在文档中出现的次数;IDF指逆文档频率,IDF = log(N/n),其中N表示文档集合中共有多少个文档,n表示该词汇在其中多少个文档中出现过,由这个公式可以看出,当一个词汇在越多的文档中出现,那么它的权重会越小(也就是说当每个文档都包含某个词汇时,那么这个词汇对于文档检索就没啥用了,IDF=0)。
BM25算法:
这个算法的公式比较复杂,就不列出来了。这个算法会考虑到四个因素:IDF,文档长度因子,文档词频和查询词频。这些因子其实就可以看作是上面提到的norms。
2. Index-time指什么?
index-time是指索引文档的(即查询)时候。
要回复问题请先
登录
或
注册
发起人
codesunshine
活动推荐
Jun
17
搜索客 Meetup 讲师招募(长期有效)
线上
·
6-17 周一
·
进行中
Dec
22
【活动邀请·深圳】深圳 UG 2024 re:Invent re:Cap
深圳英特尔大湾区科技创新中心
·
12-22 周日
·
报名中
Dec
25
【第5期】搜索客 Meetup | 最强开源Elasticsearch多集群管理工具INFINI Console - 动手实战
直播:极限实验室微信视频号
·
12-25 周三
·
报名中
Dec
28
2024 OSC源创会年终盛典 启程在即,我们在珠海等你!
珠海市
·
12-28 周六
·
报名中
相关问题
我对elasticsearch translog flush的理解和疑惑(看完网上的分析后感觉不严谨)
关于_type 与 _doc 我该怎么理解?
Translog 安全性理解
elasticsearch中mapping定义中norms字段的疑问?
es-head文档数量疑问,按照理解括号外面的是主分片的文档数量,括号里面的是主分片加副本文档数量
如何深入理解ES的分片租约
关于倒排索引中搜索结果合并不太理解的地方
elastic2.3自定义插件,监测index变化,postIndex,postCreate的执行让我无法理解
如何理解es的百分位数聚合(Percentiles Aggregation)?
restclient持久连接怎么理解,是创建一次可以一直用吗,会不会时间长了断开连接
kibana-discovery 中的filter out value如何理解啊?
问题状态
最新活动:
2021-08-17 18:47
浏览:
2770
关注:
2
人
1 个回复
BetterLevi
赞同来自:
norms是一类信息的统称,这类信息是指被分词后的term的一些信息,比如term的长度,出现的频率等等,用来计算文档的相似性分数。ES常用的相似性算法有两种:TF-IDF和BM25算法。
TF-IDF算法:一个词汇的权重=TF*IDF。
TF指词汇频率,即词汇在文档中出现的次数;IDF指逆文档频率,IDF = log(N/n),其中N表示文档集合中共有多少个文档,n表示该词汇在其中多少个文档中出现过,由这个公式可以看出,当一个词汇在越多的文档中出现,那么它的权重会越小(也就是说当每个文档都包含某个词汇时,那么这个词汇对于文档检索就没啥用了,IDF=0)。
BM25算法:这个算法的公式比较复杂,就不列出来了。这个算法会考虑到四个因素:IDF,文档长度因子,文档词频和查询词频。这些因子其实就可以看作是上面提到的norms。
2. Index-time指什么?
index-time是指索引文档的(即查询)时候。