用了Elasticsearch,一口气上5T

中文字"的"出现过多,导致得分较高

Elasticsearch | 作者 qwj | 发布于2019年09月20日 | 阅读数:334

比如我搜索:历史上的今天,用ik会分出"的"这个汉字,假如文档中"的"出现过多,即使这篇文档相关性不是很高,也能搜索到,甚至排在前面.
请问大家这种问题怎么解决?
已邀请:

stone_xy

赞同来自:

“的”字是停词啊,不会计入。你确定是因为“的”字导致排在前面的?
 
GET _analyze
{
"analyzer": "ik_smart",
"text": "历史上的今天"
}

# 输出结果
{
"tokens" : [
{
"token" : "历史上",
"start_offset" : 0,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "今天",
"start_offset" : 4,
"end_offset" : 6,
"type" : "CN_WORD",
"position" : 1
}
]
}

doom

赞同来自:

的是停用词,查询分词不会出现就好了。

要回复问题请先登录注册