你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

Elasticsearch大数据下怎么去重

Elasticsearch | 作者 xuhuipeng | 发布于2022年07月05日 | 阅读数：1434

目前Elasticsearch集群中索引中有7亿条数据，1Tb,字段10个，要求对账号字段进行去重，返回全部的不重复账号。
使用Filnk或者spark全量扫描数据，对于集群压力太大，请问有别的方法吗

4 个回复

juin - 大数据开发

你搜一下 collapse ，ES 有个"折叠" 的功能

切分下数据用 scroll 扫数据，压力不会很大

collapse函数目前最好的方案

补充一下，不重复的账号大于有20W。

要回复问题请先登录或注册