kennywu76

kennywu76

wood@Ctrip

浙江省 杭州市 计算机软、硬件/互联网/IT

威望 : 426 积分 : 7315 赞同 : 861 感谢 : 79

擅长话题

更多 »回复

4

这个聚合最大的问题是agg2的size设置得很大,估计keyword5字段的基数非常高,却期望返回所有聚合结果。  如果该字段基数真的有上亿,加上第一层聚合还有24的size,组合产生的buckets数量可能在数亿 至数十亿的量级,计算产生的内存压力也非常大,...

0

你这个数据规模,master结点用8GB内存的虚拟机足够了,  heap分配4GB,其他留给堆外和操作系统。

2

提供一个思路供参考:   公司名称可以索引为multi-filed,即一个为keyword类型,一个为text类型。 查询的时候,使用bool Query,对两个字段分别查询后用should连接, 这样完全匹配的公司名称相关度比部分匹配的高,排在前面优先返回。...

1

先要分清楚GC有压力的原因,是因为存储了太多的数据,Lucene索引占用了太多堆内空间; 还是因为某个时刻有高内存消耗的查询聚合引起的。 如果装有xpack的监控,看下JVM相关的指标初步判断一下。   如果是数据太多,考虑删除不用的数据,或者扩容。 如果是查...

3

听起来像是将数据库里的表作为索引一对一导入到了ES,才会需要同时查询这么多的索引和字段。  这样做是快不了的,因为一次搜索,同时查询的shard数量太多,会有非常多的随机磁盘IO产生。    问题根源是数据模型缺乏设计, 应该根据查询的需要,对数据做抽取,转换...

更多 »发问

9

697 次浏览  • 14 个关注   • 2018-08-24

发问

回复

文章

最新动态

详细资料

个人成就:

威望: 426 积分: 7315 赞同: 861 感谢: 79

最后活跃:
1 小时前
擅长话题:
elasticsearch 147   27
elasicsearch 55   8
es 56   6
elastic 28   5
logstash 12   1
聚合 8   2
DSL 8   3
内存 7   2
update 4   2
Translog 7   0
query_string 6   0
script 5   0
更多 » 关注 2

jiangtao medcl

更多 » 406 人关注

novia zz_hello ziyouzizai qk4089@ly.com Yang

主页访问量 : 10977 次访问