悟空,拿我的打狗棒来

ik分词,搜索不准确不符合预期

Elasticsearch | 作者 JYong | 发布于2020年07月17日 | 阅读数:2007

请教各位大佬,自定义词库,分词使用ik_max_word。搜索的时候,命中多的得分反而低是什么原因呢?
1、蒙山云上广告有限公司,命中两个:云上、上广
2、云上广西大数据有限公司,命中三个:云上、上广、广西
结果:蒙山云上广告有限公司的得分更高,云上广西大数据有限公司更低。
请问下是什么原因导致呢,谢谢各位大佬


1.PNG


2.PNG


3.PNG


4.PNG




*********************** 将长度修改为一致,评分还是蒙山云上广告有限公司更高 ******************************

5.PNG


6.PNG


 
已邀请:

FFFrp

赞同来自:

第一个文档的tfNorm(文本的长度对于该项权重的影响,文档的长度越长,出现一次重要性越低)比第二个高,导致前面两个词的分数比较高,而广西因为idf比较低所以分数低

aa5190019

赞同来自:

ik分词怎么弄的!

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

您可以explain:true 看下算分过程

要回复问题请先登录注册