即使是不成熟的尝试,也胜于胎死腹中的策略。

关于es的消重

Elasticsearch | 作者 novia | 发布于2016年08月29日 | 阅读数:4123

需求:利用es中的一个非ID字段入库时消重,有做过这方面的吗?
已邀请:

leighton_buaa

赞同来自:

不清楚你说的消重具体指什么?
如果是两个相同的doc,那你用程序指定相同的doc_id就可以了,这样index时根据相同的_id就会覆盖之前的doc

novia - 1&0

赞同来自:

不是_id,是另外一个非ID字段,我们的需求很特殊,已经有id覆盖,但还需要通过另外一个字段实时消重
 
不想用redis

novia - 1&0

赞同来自:

不知道es本身有没有可以利用的地方

leighton_buaa

赞同来自:

能不能换一种思路?不需要去重,但是在查询时加入过滤条件,得到去重的结果?

novia - 1&0

赞同来自:

嗯,现在有两种想法,第一:就是从存储方面消重,这样外部的系统不用考虑重复
             第二:就是您说的这种,依靠外部消重
目前还是想找出第一种思路的解决方案,如果用锁+存在判断+入库,可能性能会有问题
 

leighton_buaa

赞同来自:

入库ES如果采用Logstash的话,可以考虑ruby filter

novia - 1&0

赞同来自:

是直接java操作的es,不过我可以参考下ruby filter,感谢!

要回复问题请先登录注册