你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

一次集群负载过高的疑惑

Elasticsearch | 作者 code4j | 发布于2019年09月25日 | 阅读数：2825

版本：5.4.1

背景：集群26个节点，175个索引，都是同一个业务，写流量只走最新的索引，读会走整个索引群

问题：有一天下午集群负载变得非常高，时间大概维持了十来分钟，导致集群很多操作都超时了。观察了下监控，当时的写是正常流量，读qps和其他时间一样也没有太大的波动。但是有一个指标比较奇怪，fielddata cache 变得比之前多很多，以前这一项指标基本就是0，但是出问题的那段时间一直维持在几个G。

出现问题的时候 search队列溢出：