试试搜索一下吧

Elasticsearch大数据下怎么去重

Elasticsearch | 作者 xuhuipeng | 发布于2022年07月05日 | 阅读数:910

目前Elasticsearch集群中索引中有7亿条数据,1Tb,字段10个,要求对账号字段进行去重,返回全部的不重复账号。
使用Filnk或者spark全量扫描数据,对于集群压力太大,请问有别的方法吗
已邀请:

juin - 大数据开发

赞同来自:

你搜一下 collapse ,ES 有个"折叠" 的功能

FFFrp

赞同来自:

切分下数据用 scroll  扫数据,压力不会很大

sdx

赞同来自:

collapse函数目前最好的方案

xuhuipeng

赞同来自:

补充一下,不重复的账号大于有20W。

要回复问题请先登录注册