身安不如心安,屋宽不如心宽 。

中文分词怎么限制最大/最小分词长度

Elasticsearch | 作者 chenkongzhang | 发布于2019年11月19日 | 阅读数:4220

今天搜索一个四个字的中文"爆款眼镜",es里分词当然没有爆款眼镜和爆款了,所以被分词查询了,然后前几页的结果全是匹配到爆和款的结果。
所以现在有个需求,分词最小长度是2,这样es分词后就不会有爆和款这两个词了。
请问如何设置最小分词长度为2
 
 
已解决
修改了ik源代码(版本7.3.2),现在中文分词最小长度为2,然后重新打包,如果需要搜索 单字 不调用es查询,而调用原有的mongo数据库查询

xz.png


xxx.png

 
已邀请:

huangmingzhi - 90后 搜索

赞同来自:

最小分词长度没设置过  不过可以通过设置minimum_should_match来设置最小匹配的占比   或者你可以通过动态词典将"爆款"加入分词
匿名用户

匿名用户

赞同来自:

ngram 其实也挺好的。
我们就用这个,不过我们的数据量不大,1000w条数据吧,有一个长文本字段,大概有5000个字符。
 

liuxg - Elastic

赞同来自:

你可以定制一个分析器。我之前写了一个文章https://elasticstack.blog.csdn ... 92478。希望能帮到你。

要回复问题请先登录注册