愚者求师之过,智者从师之长。

elasticsearch去除相似度较高的数据

Elasticsearch | 作者 qqq1234567 | 发布于2018年11月06日 | 阅读数:4997

假设有这样一组数据
title:1-6月份房地产市场运行情况
title:1-7月份房地产市场运行情况
title:1-10月份房地产市场运行情况
标题非常类似的数据,只显示一条
已邀请:

rochy - rochy_he

赞同来自:

去除相似度高的应该在数据录入的时候进行处理
你现在的需求就造成无法定义相似度高,
此外相似度高的显示那一条数据呢?
你这个最好是使用 ES 查询,然后自己程序里面进行判断
相似度你可以使用 编辑距离、余弦距离等方式来进行判定。

novia - 1&0

赞同来自:

如果就想通过es实现,那就的自己开发相关插件了

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

文章接入的时候打上相似文章的计算,打上标记即可。推荐:https://mp.weixin.qq.com/s%3F_ ... 67b45

zqc0512 - andy zhou

赞同来自:

写入的时候 处理 spark 这些都可以。

qqq1234567

赞同来自:

但是simHash处理短文本的效果好像不是很好,像标题这样的短文本应该怎么处理呢

core_wzw - 某AILab搜索技术负责人

赞同来自:

冗余文档去重,在入索引库前做,不然在召回后的去重不仅难以控制召回集里冗余文档的数量,重排前的去冗余都会非常耗时。
业务层面必然会碰到的问题,我的经验是文档入库前spark算文档的simhash,建立一个冗余库,业务文档索引库只存在一篇“原创”文档,通过UI端提供相似文档按钮召回冗余库里的相似文档即可。

skymilong66

赞同来自:

入库前打上标记吧

要回复问题请先登录注册