要不要再翻翻文档呢?

elastcsearch批量删除重复的document

Elasticsearch | 作者 username | 发布于2017年12月22日 | 阅读数:4629

elastcsearch插入数据时插入了许多重复的数据,比如我某一类的document有account和password两个字段,插入了许多个account和password完全相同的数据,这些document只有id不一样其他的都一样。
问题是:如何删除这些重复了的document并且只保留一个?

1.png

 
已邀请:

andy chen

赞同来自:

这个得自己去实现,关键在找出重复的数据,这里有个方法:
https://qbox.io/blog/minimizin ... earch
 

rochy - rochy_he

赞同来自:

这个推荐使用 termAgg,即使用 term聚合,聚合内容为 account+password(可以通过脚本实现);
然后添加子聚合 topHits,根据 topHits 的结果可以获取全部的文档,
最后根据文档 _index _type _id 即可批量删除,而且可以自己抉择保留哪一个

guoyuan - xxx

赞同来自:

楼主,请问这个功能实现了吗,我现在也有这个业务需求

要回复问题请先登录注册