你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
发现
分享
文章
活动
登录
无论才能、知识多么卓著,如果缺乏热情,则无异纸上画饼充饥,无补于事。
Elasticsearch大数据下怎么去重
Elasticsearch
| 作者
xuhuipeng
| 发布于2022年07月05日 | 阅读数:
1330
分享到:
QQ空间
新浪微博
微信
QQ好友
印象笔记
有道云笔记
目前Elasticsearch集群中索引中有7亿条数据,1Tb,字段10个,要求对账号字段进行去重,返回全部的不重复账号。
使用Filnk或者spark全量扫描数据,对于集群压力太大,请问有别的方法吗
没有找到相关结果
已邀请:
与内容相关的链接
提交
4 个回复
juin
-
大数据开发
赞同来自:
你搜一下 collapse ,ES 有个"折叠" 的功能
FFFrp
赞同来自:
切分下数据用 scroll 扫数据,压力不会很大
sdx
赞同来自:
collapse函数目前最好的方案
xuhuipeng
赞同来自:
补充一下,不重复的账号大于有20W。
要回复问题请先
登录
或
注册
发起人
xuhuipeng
活动推荐
Aug
15
2025 Zabbix 中国峰会
上海
·
8-15 周五
·
报名中
Oct
17
第27届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站
上海
·
10-17 周五
·
报名中
相关问题
3千万数据,如何设计集群
elasticsearch scroll查询的原理没太懂
我来写第一个帖子-你们都是什么时候知道elasticsearch的?
怎么解决elasticsearch集群占用太多虚拟内存(VIRT)的问题?占用了几十个G,有什么可以对它进行限制的相关设置吗?
elasticsearch 设置 node.data: false 依然有数据
集群稳定性的一些问题(一定量数据后集群变得迟钝)
ElasticSearch-Hadoop的目標是什麼呢??
elasticsearch functionScoreQuery scriptFunction效率问题
跨集群数据同步方案讨论
Elastic对类似枚举数据的搜索性能优化
5.X 版本多type 的 es 数据迁移到6.1
问题状态
最新活动:
2022-07-08 17:52
浏览:
1330
关注:
4
人
4 个回复
juin - 大数据开发
赞同来自:
FFFrp
赞同来自:
sdx
赞同来自:
xuhuipeng
赞同来自: