单子段搜索,分词后根据不同词性权重设置
匿名 | 发布于2018年08月20日 | 阅读数:4983-----参照大家提示用了match match_prase 去实验,结果显示match_prase 必须要求全部词语均出现才行所以不适用这个场景
match 在查询中倒也是可以查询的结果比match_prase要效果好一点,但是并不比用more_like_this效果好 有些相似的就是查不出来.我们的本意是根据语义进行去重,另外“A股预计8月12日发布财报”与“B股预计8月12日发布财报”这俩不是重复标题,因为股票主题不一样
所以还是需要大神帮忙解读一下 more_like_this
我想把分词结果输出保存在一个list,判定这些词语是否在自定义词典中,如果在,这些词语的权重加大,这个怎么实现?
more_like_tihs 中的boost_terms怎么使用?
环境:单点服务器
版本:elasticsearch 5.3
问题:新闻系统,根据标题搜索
具体:
新手想请教一下我用es搭建了一个文档搜索系统,主要通过more_like_this实现搜索标题查重功能,每次输入新的文章标题判定文档库里面是不是已经有类似文章了,现在系统是搜索会尽可能的搜索出来更多相似的文章但是并不是我想实现的精确查重,比如我输入“茅台发布二季度财报” 会出来“五粮液发布二季度财报”,“汾酒发布二季度财报” 等等 其实对我来说 我关注点是在“茅台” 就类似于增加了语义搜索而不只是单纯的看词频进行评分 这个查询输入是可变化的变量,我需要自动分词出来这些我关注的高权重的词比如“茅台” ,这些高权重的词单独存在一个表这样。
这个怎么做?求大神指点一下
4 个回复
laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net
赞同来自: zyb1994111
qw8613243
赞同来自:
rochy - rochy_he
赞同来自:
2. 如果想实现文章去重,推荐使用 SimHash + 汉明距离 的方案;
3. 如果想实现从文本中获取自己自定义的关键词,你可以了解一下 HanLP 分词,把你的关键词作为自定义词性,然后再分词的时候就可以根据词性得到关键词。
S_Rainbow
赞同来自: