集群整体挂掉.

Elasticsearch | 作者 luohuanfeng | 发布于2018年03月12日 | 阅读数：4727

上周五集群出现响应特别慢的现象,用curl ip:9200 要等几分钟才返回结果,但是cup 内存都没表现出异常.
kibana上显示plugin:elasticsearch@6.1.1 request timeout after 60000ms,截图如下

还有当时时间段的es的日志.截图如下

我当时直接把所有节点都重启了一下.然后服务可用了,集群状态成yellow等待恢复.
重启后kibana监控截图如下:

请大神们帮忙分析一下可能哪里出现的问题.

----------------------------------------------------------------------------------------
周六集群状态恢复成green,但是日志里不断地刷这种日志:

[2018-03-12T09:39:13,008][WARN ][o.e.x.w.e.ExecutionService] [elk03] failed to execute watch [-5k9J17YS-akE0a216b_Ew_elasticsearch_version_mismatch]

[2018-03-12T09:39:13,012][WARN ][o.e.x.w.e.ExecutionService] [elk03] failed to execute watch [-5k9J17YS-akE0a216b_Ew_kibana_version_mismatch]

[2018-03-12T09:56:12,847][WARN ][o.e.x.w.e.ExecutionService] [elk03] failed to execute watch [-5k9J17YS-akE0a216b_Ew_kibana_version_mismatch]

2 个回复

rockybean - Elastic Certified Engineer, ElasticStack Fans，公众号：ElasticTalk

赞同来自: luohuanfeng

关注下 GC，你看你的图，gc 时长、jvm heap，还有 cpu 都在一个时间点飙升。建议排查下查询语句

code4j - coder github: https://github.com/rpgmakervx

赞同来自: luohuanfeng

同楼上，异常信息直接反映的是请求超时，但是超时的可能性有很多。但是这种假死的原因一般挺集中的，FGC过频导致STW太久，CPU吃的太狠，都有可能，内存的可能性更大。出现这个现象，第一时间 jstat -gc 看下集群的FGC 耗时如果频率高但是耗时不高那可能不是关键因素但是也要小心，如果频率高而且耗时都是秒级的那基本就是这个原因了。如果是后者，这个时候不要停集群，先dump堆，然后看看日志里面有没有大页查询或者深度查询什么的，特别是吃内存的业务想想是不是在这个时候很多。

要回复问题请先登录或注册

集群整体挂掉.

2 个回复

发起人

相关问题

问题状态

集群整体挂掉.

与内容相关的链接

2 个回复

发起人

相关问题

问题状态