集群整体挂掉.

上周五集群出现响应特别慢的现象,用curl ip:9200 要等几分钟才返回结果,但是cup 内存都没表现出异常.
kibana上显示plugin:elasticsearch@6.1.1 request timeout after 60000ms,截图如下

TIM截图20180306165053.png



还有当时时间段的es的日志.截图如下

TIM截图20180306165053.png


我当时直接把所有节点都重启了一下.然后服务可用了,集群状态成yellow等待恢复.
重启后kibana监控截图如下:

TIM截图20180306165053.png


请大神们帮忙分析一下可能哪里出现的问题.


----------------------------------------------------------------------------------------
周六 集群状态恢复成green,但是日志里不断地刷这种日志:
[2018-03-12T09:39:13,008][WARN ][o.e.x.w.e.ExecutionService] [elk03] failed to execute watch [-5k9J17YS-akE0a216b_Ew_elasticsearch_version_mismatch]
[2018-03-12T09:39:13,012][WARN ][o.e.x.w.e.ExecutionService] [elk03] failed to execute watch [-5k9J17YS-akE0a216b_Ew_kibana_version_mismatch]
[2018-03-12T09:56:12,847][WARN ][o.e.x.w.e.ExecutionService] [elk03] failed to execute watch [-5k9J17YS-akE0a216b_Ew_kibana_version_mismatch]
已邀请:

rockybean - ElasticStack Fans,公众号:ElasticTalk,慕课网《ElasticStack 从入门到实践》讲师

赞同来自: luohuanfeng

关注下 GC,你看你的图,gc 时长、jvm heap,还有 cpu 都在一个时间点飙升。建议排查下查询语句

code4j - coder

赞同来自: luohuanfeng

同楼上,异常信息直接反映的是请求超时,但是超时的可能性有很多。但是这种假死的原因一般挺集中的,FGC过频导致STW太久,CPU吃的太狠,都有可能,内存的可能性更大。出现这个现象,第一时间 jstat -gc 看下集群的FGC 耗时 如果频率高但是耗时不高那可能不是关键因素但是也要小心,如果频率高而且耗时都是秒级的那基本就是这个原因了。如果是后者,这个时候不要停集群,先dump堆,然后看看日志里面有没有大页查询或者深度查询什么的,特别是吃内存的业务想想是不是在这个时候很多。

要回复问题请先登录注册