使用 dmesg 来查看一些硬件或驱动程序的信息或问题。

单台es节点cpu彪满,整个集群僵死,api僵死

Elasticsearch | 作者 famoss | 发布于2017年01月17日 | 阅读数:7017

今天突然有一台机器的cpu跑满了,且也连不上。
这时 所有api 都无响应,但是也不返回结果。比如
`curl 'localhost:9100/_cat/thread_pool?v&h=id,host,bulk.size,bulk.active,bulk.rejected,bulk.completed,bulk.queueSize,bulk.queue'`
一直在执行。无响应。所有写入也僵死无响应。

master节点抛:NodeDisconnectedException[[es165-4][ip:port][cluster:monitor/nodes/info[n]] disconnected

这个状态一直持续到我关了那台机器。整个集群状态变为yellow,所有api都恢复了。

请问这是什么问题
 
es版本:V2.3.2
已邀请:

kennywu76 - Wood

赞同来自: fairyland

结点不响应多数情况是heap不够用了,原因可能是上面存放的数据过多,segment memory占用很大,或者有内存消耗很高的查询/聚合操作。 ES集群的资源监控,特别是JVM的占用率,young/old GC频率非常重要, api掉用详情需要,比如查询的dsl,耗时等需要有日志记录,便于出问题时定位问题根源。

要回复问题请先登录注册