使用 dmesg 来查看一些硬件或驱动程序的信息或问题。

Es 相关度计算总感觉不对

Elasticsearch | 作者 ddd332008 | 发布于2016年11月21日 | 阅读数:2993

文档: cd54 xxxxx | cd5 xxxxx | cd45 xxxxx | cd(45) xxxxx | cd 45 xxxxx | cd545 xxxxx
搜索关键词:cd5

目前排序:
1、cd545 xxxxx

2、cd45 xxxxx

3、cd54 xxxxx

4、cd5 xxxxx

5、cd(45) xxxxx

6、cd 45 xxxx

我想要的是 cd5 排第一,cd54排第二,cd545排第三,ES默认字段长度会带来自然的提升,也说明BM25会导致提升失效,但是我用BM25并没有失效,还是字段越长权重越高,还有,邻近匹配的话,cd5 不是应该高于cd45么,为什么cd45权重还高一点,检查了权重的相关分值,发现词频高于cd5,还有就是indexdoc这个统计数量到底是统计的什么,既不是文档个数,也不是符合条件的文档个数,还有,倒排词频的功能不是词越短权重越大吗?为什么没生效?

相关度疑问太多了,有大神能解释一下吗?
已邀请:

要回复问题请先登录注册